I n d on e s i an   Jo u r n al   o El e c t r i c al   En gi n e e r i n g   an d   C o m p u te r   S c i e n c e   V o l .   16 ,   N o .   2 N o v e m b e r   201 9 ,   pp.   105 0~ 10 58   IS S N :   2502 - 4752 ,   D O I :   10. 1 1591 / i j e e c s . v 1 6 .i 2 . pp105 0 - 1058             1050       Jou r n al   h o m e pa ge ht t p: / / i ae s c or e . c om / j our na l s / i nde x . php/ i j e e c s   A n a l y t i c s   o f   st o c k   m a r k e t   p r i c e s   b a sed o n   m a c h i n e   l e a r n i n g   a l g o r i t h m s       P u te r i   H as ya   D am i a   A b d   S am ad 1 ,   S o fi an i ta   M u tal i b 2 S h u z l i n A b d u l - R ah m an 3   F a c ul t y   o f   C o m put e r   a nd   M a t he m a t i c a l   S c i e nc e s ,   U n i v e r s i t i   T e kno l o g i   M A R A ,   M a l a y s i a       A r ti c l e   I n fo     A B S TR A C T   Ar t i c l e   h i s t or y :   R e c e i v e J a 29 ,   2 019   R e v i s e M a 2,   201 9   A c c e pt e M a y   13,   20 19       T hi s   s t u dy   f o c us e s   o t he   us e   o f   m a c hi ne   l e a r ni ng   a l g o r i t hm s   t o   a na l y s e   f i na nc i a l   ne w s   o s t o c m a r ke t   pr i c e s .   S t o c m a r ke t   p r e d i c t i o i s   a   c ha l l e ng i ng   t a s k   be c a u s e   t h e   m a r ke t   i s   kno w t o   be   v e r y   vol a t i l e   a nd   dy na m i c .   I n v e s t o r s   f a c e   t he s e   ki nds   o f   pr o bl e m s   a s   t he y   do   n o t   pr o pe r l y   unde r s t a nd  w h i c s t o c pr o duc t   t o   s ubs c r i b e   o r   w he t o   s e l l   t he   p r o duc t   w i t a o pt i m um   pr o f i t .   A na l y z i ng   t he   i nf o r m a t i o i ndi v i dua l l y   o r   m a nua l l y   i s   a   t e d i o us   t a s a s   m a ny   a s pe c t s   h a v e   t o   be   c o ns i de r e d .   F i v e   d i f f e r e n t   c o m pa ni e s   fr o m   B ur s a   M a l a y s i a   na m e l y   C I M B ,   S i m e   D a r by ,   A xi a t a ,   M a y ba nk   a nd   P e t r o na s   w e r e   c ho s e i t h i s   s t udy .   T w o   s e t s   o f   e xpe r i m e nt s   w e r e   pe r f o r m e d   ba s e o di f f e r e nt   d a t a   t y pe s .   T he   f i r s t   e x pe r i m e n t   e m p l oy s   t e xt ua l   da t a   i nv o l v i ng   6368  a r t i c l e s ,   e x t r a c t e d   f r o m   f i na n c i a l   n e w s   t h a t   h a v e   be e c l a s s i f i e d   i nt o   po s i t i v e   o r   ne g a t i v e   u s i ng   S uppo r t   V e c t o r   M a c h i ne   ( S V M )   a l g o r i t hm .   B a g s   o f   w o r ds   a nd  ba g s   o f   c o m bi na t i o w o r ds   t h r o ug A pr i o r i   a l g o r i t hm   a r e   e xt r a c t e a s   t he   f e a t ur e s   f o r   t he   f i r s t   e xpe r i m e n t .   T he   s e c o nd   e xpe r i m e nt   e m pl o y s   t he   num e r i c   da t a   t y pe   e xt r a c t e f r o m   hi s t o r i c a l   da t a   i nv o l v i ng   5321  r e c o r ds   t o   pr e di c t   w he t h e r   t he   s t o c pr i c e   i s   g o i ng  up   ( po s i t i v e )   o r   do w ( n e g a t i v e )   us i ng   R a ndo m   F o r e s t   a l g o r i t hm .   T he   R a i n   F o r e s t   a l g o r i t hm   g i v e s   be t t e r   a c c ur a c y   i c o m pa r i s o w i t h   S V M   a l g o r i t hm   w i t 99 %   a nd  68 %   a c c ur a c y   r e s pe c t i v e l y .   T he   r e s u l t s   de m o ns t r a t e   t he   c om pl e xi t i e s   o f   t he   t e x t u a l - ba s e da t a   a n de m a nd  be t t e r   f e a t ur e     e xt r a c t i o t e c hni q ue .   Ke y w or ds :   B ur s a   M a l a y s i a   F r e que nt   i t e m s e t   M a c hi n e   l e a rni n g   S t o c m a r ke t   p r i c e s   p r e di c t i o n   T e xt   m i ni n g   C opy r i gh t   ©   201 9   I n s t i t ut e   o f   A dv anc e E ng i ne e r i ng   and   S c i e nc e .     A l l   r i gh t s   r e s e r v e d .   Cor r e s pon di n g   Au t h or :   S of i a ni t a   M u t a l i b ,   F a c ul t y   of   Co m put e r   a n d   M a t h e m a t i c a l   S c i e n c e s ,   U n i v e r s i t i   T e kn o l o gi   M A R A ,   40450  S ha A l a m ,   S e l a n go r,   M a l a y s i a .   E m a i l :   s o f i @ t m s k. u i t m . e du . m y       1.   I N TR O D U C TI O N     S t o c m a r ke t   i n v e s t o r s   n o r m a l l y   h a ve   t o   m a ke   di ff i c ul t   de c i s i o n s   b a s e o n   t h e   a s s um pt i o n s   t ha t   t h e   pr e s um e d   p ri c e   i s   di ff e r e n t   f r o m   t h e   c u rr e nt   s t o c m a r ke t   p ri c e   due   t i t s   i nt r i n s i c   v a l ue   [1 - 2] T h e   i nt ri n s i c   v a l ue   of   t h e   s t o c i s   c o n s i de r e a s   c o n s t a n t   w i t hi n   a   s h o r t   p e r i o o f   t i m e   be c a us e   o pi n i o n s   o r   de c i s i o n s   t ha t   ha v e   be e n   m a de   by   i n v e s t o r s   a r e   n o t   e xpe c t e t o   c h a n ge   d ra s t i c a l l y   i n   a   s h o r t   pe ri o of   t i m e .   I n v e s t o r s   m a ke   c o m pa ri s o n s   b e t w e e n   t h e   pe r c e i v e i n t r i n s i c   v a l ue   a n i t s   m a r ke t   v a l ue ,   a nd  l a t e r   i n v e s t o r s   m a ke   de c i s i o n s   o n   b u y i n o s e l l i ng  o r   h o l d i n b a s e o n   t h e   c urr e nt   s i t ua t i o n   [2 - 3] .   B i l l i o n s   o f   m o n e y   a r e   t ra de o e xc h a n ge d   e v e r y   da y   w h e r e by   t h e   i n v e s t o r s   a r e   h o pi n t h a t   t h e y   w i l l   ma ke   p r o f i t   i n s t e a o f   l o s s e s .   Be h a v i o r   of   i n v e s t o r s   c a n   a f fe c t   s t oc pr i c e s ,   a n d   i n v e s t o r s   i n f l ue n c e   s t o c pr i c e s   by   us i n i n f o r m a t i o n   t h a t   a r e   a v a i l a b l e   i n   t h e   pub l i c   do m a i t o   p r e di c t   t h e   r e s ul t s   o f   h o w   t h e   m a r ke t   w i l l   r e a c t   [4 - 5] .   T hi s   m a ke s   s t o c k   m a r ke t   a na l y t i c s   a n   e xt r e m e l y   i n t e r e s t i ng  a r e a   a n i t s   de v e l o pm e n t   i s   w o r t h w hi l e   fo r   t h e   i n v e s t o r s M a r ke t   pr e di c t i o n   t h a t   i s   e f fe c t i ve   m i g h t   h e l t h e   i n v e s t o r s   i n   t e rm s   o f   t r a di ng  a dv i c e   o r   a s   a   ke y   c o m po n e n t   f o r   s t o c k b r o ke r s .   F u r t h e rm o r e ,   p r e di c t i o n   m o de l s   c a n   h e l i n v e s t o r s   i n   p r o v i di n h e l pf ul   i n f o rm a t i o n   l i ke   m a r ke t   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A nal y t i c s   of   s t o c k   m ar k e t   pr i c e s   bas e d   on   m ac h i n e   l e ar n i ng   ( P ut e r i   H as y D am i A bd   Sam a d )   1051   di r e c t i o n   i n   t h e   f ut ur e [5 - 7] .   F o r   e xa m p l e ,   i f   t h e   s e l e c t e s t o c i s   p r e di c t e t o   i n c r e a s e ,   b u y i n a   s t o c dur i ng  t h a t   t i m e   m a y   i n c r e a s e   p r o f i t s .   M o r e ov e r ,   f i na n c i a l   n e w s   a r t i c l e   c a n   pl a y   a   h uge   r o l e   i i n f l ue n c i ng  t h e   m o v e m e n t   o f   s t o c k s     [3 ,   4 ,   7] .   F u r t h e rm o r e ,   n e w s   n o r m a l l y   c a rr y   v a l ua b l e   i n f o r m a t i o n   a b o ut   pa r t i c ul a f i rm   f o un da t i o n s   a n a l s o   e xpe c t a t i o n s   o f   r e l a t e m a rke t   pa rt i c i p a n t s .   H ow e ve r ,   t h e   i n v e s t o r s   c o ul b e   f a c i n p r o b l e m s   i n   a na l y s i n m a n y   a rt i c l e s   [5]  a n t h e y   a r e   ov e r w h e l m e by   i n fo r m a t i o n   a n in   t h e   e n d ,   i t   i s   s t i l l   a   ha r de c i s i o n   t o   m a ke   t o   b u y   o r   t o   s e l l   i n   o rde r   t o   ge t   o pt i m um   p r o f i t .   T h e   i n v e s t o r s   a r e   a w a r e   t ha t   t h e   n e w s   a n a n a l y s t   r e po r t s   c o n t a i n   ri c h   i n f o r m a t i o n   a b o ut   s t o c m a r ke t s   [ 7 - 9] .   H e n c e ,   a n a l y z i n n e w s   a bo ut   pa r t i c ul a s t o c k ,   i n c l ud i n o n l i n e   f e e ds   f r o m   h uge   s o ur c e s   i s   a n   i m po r t a n t   r e s o ur c e   in   s t o c m a r ke t   p r e di c t i o n   [ 6 - 7] .   A n a l y z i n t h e   i n f o r m a t i o n   i n di v i du a l l y   o r   m a n u a l l y   i s   di ff i c ul t   [ 7 - 9] T h us ,   w e   n e e a n   a pp r o p r i a t e   t o o l   w i t h   s u i t a b l e   a l go ri t hm s   t o   s o l ve   t hi s   ki nd  o f   pr o b l e m ,   a nd  t h e   a na l y t i c s   w o ul b e   c a rr i e o ut   i n   a n   e f f i c i e n t   a nd  p r o pe w a y   t h r o ug h   t e xt   m i n i ng.   M a n y   m e t h o ds   ha v e   be e n   pr o po s e t o   pr e di c t   t h e   di r e c t i o n s   o f   s t oc m a r ke t   p ri c e s   b ut   w i t h   n u m e r o us   a t t e m pt s   i n   t r y i n t o   ge t   a c c ur a t e   s t o c k   pri c e   e ffe c t s   s uc h   a s   po s i t i v e   o r   n e ga t i v e ,   m a n y   o t h e m   b a r e l y   e xc e e de 58%  [ 7 ,   10 - 12] .   F r o m   t h e   ob s e r v a t i o n,   i t   p r o v e s   t h a t   t h e   da t a   s h o ul b e   dul y   a n a l y z e d   i n   o r de r   t o   ge t   t h e   de s i r e o ut p ut .   S uppl y   a n de m a n c a n   a f fe c t   s t o c pr i c e s   c h a n ge s   o a   pa r t i c u l a r   s t o c a n c ha n ge s   i n   t h e   m a r ke t   a r e   a s s o c i a t e w i t h   t h e   s e n t i m e n t s   of   i n v e s t o r s .   T h e r e f o r e ,   n e w s   a r t i c l e s   m a y   c a r r y   t i m e l y   i n f o r m a t i o n   a b o ut   p a r t i c ul a r   s t o c m a r ke t .   O t h e r   di f f i c ul t i e s   i n   a n a l y z i n t h e   s t o c m a r ke t   f r o m   n e w s   a r e   t ha t   i t   m i g ht   n o t   b e   e n t i r e l y   pr e di c t a b l e   [ 3 - 11 ] ,   a nd  t e xt ua l   d a t a   ha s   i t s   c o m pl e xi t i e s   o f   m o de l l i n g   t h e   m a r ke t ,   w h i c h   i s   dy n a m i c s   [ 5 ,   13 ,   14] .   S i n c e   i n f o r m a t i o i n c r e a s e s   da y   by   da y ,   i t   i s   qui t e   c ha l l e n g i n g   f o r   s o m e   i n v e s t o r s   t o   c o n s i de r   a l l   t h e   a v a i l a b l e   i n f o r m a t i o n.   T h e r e f o r e ,   a   t e xt ua l   c l a s s i f i c a t i o n   e n gi n e   t ha t   c a a ut o m a t i c a l l y   pr o c e s s   t h e   t e xt ua l   da t a   f r o m   f i n a n c i a l   n e w s   ha s   b e c o m e   m o r e   r e l e v a n t   a nd  i m po r t a n t .     T h i s   p a pe r   p r e s e nt s   t h e   A na l y t i c s   o f   S t oc M a r ke t   b a s e o n   M a c hi n e   L e a rni n g   A l go r i t hm s   by   us i n f i n a n c i a l   n e w s   a n hi s t o ri c a l   p r i c e   d a t a .   T h e   s t udy   i t hi s   pa pe f o c us e s   o n   u nde r s t a n d i n g   t h e   us e   o m a c h i n e   l e a rni n a l go r i t hm s   i n   p r e di c t i n s t o c pr i c e s   o n   t h e   F T S E   B ur s a   M a l a y s i a   K L CI  (F B M K L CI)   T h e   pr o b l e m   i n   p r e di c t i n s t o c m a r ke t   p r i c e s   i s   r e s o l ve t hr o ug h   d a t a   m i ni n w i t h   m a c hi n e   l e a rni n g   a l go ri t hm s   s uc h   a s   t h e   S uppo rt   V e c t o r   M a c h i n e   (S V M a nd  R a n do m   F o rr e s t   (R F ).   T h e   r e m a i n de r   o f   t h i s   pa pe r   i s   o r ga ni z e a s   fo l l ow s :   T h e   n e xt   s e c t i o n   i . e .   S e c t i o n   di s c us s e s   t h e   r e l a t e w o r o f   m a c h i n e   l e a rni n g   a l go ri t hm s   w h i l e   S e c t i o n   de s c r i b e s   t h e   r e s e a r c h   m e t h o do l o g y   fo r   t h e   s t udy .   S e c t i o n   pr e s e n t s   t h e   a n a l y s i s   a n r e s ul t s   o f   t h e   e xpe ri m e n t s .   F i na l l y ,   S e c t i o n   c o n c l u de s   t h e   r e s e a r c w i t h   t h e   r e c o m m e n da t i o n s   f o r     f ut ur e   w o r k.       2.   R ELA TED   S TU D I ES   A s   t h e   na m e   i m pl i e s   p r e di c t i v e   a na l y t i c s   r e f e r s   t o   t e c hn i q ue s   us e t o   pr e di c t   f ut ur e   o r   u n k n o w n   e ve n t s .   It   us e s   v a r i o us   t e c hn i q ue s   r a ngi n w hi c h   i n c l ude   da t a   m i ni n g ,   m a c hi n e   l e a rni n g ,   n a t u ra l   l a n gu a ge   pr o c e s s i n g,   a nd  s t a t i s t i c s .   T h e   p r o c e dur e s   i n v o l ve i n c l u de   a n a l y z i n g   e xi s t i ng  d a t a   i n   o r de r   t o   m a ke   pr e di c t i o n s   o f   t h e   f ut ur e .   It   us e s   pr e di c t i v e   m o de l l i n a n a n a l y t i c a l   t e c hn i que s   t o   c a rr y   t o g e t h e r   t h e   i n f o r m a t i o n   f r o m   b us i n e s s   pr o c e s s e s ,   i n f o r m a t i o n   m a na ge m e n t   t o o l   a n m o de l l i n a l go ri t hm s   i n   o r de r   t o   pr o duc e   o ut c o m e s   a bo ut   t h e   f ut u r e   s t o c p r i c e s .   T h e r e   a r e   t w o   a ppr o a c h e s   c o m m o n l y   a da pt e b y   m a r ke t   pr o f e s s i o n a l s   t o   p r e di c t   s t o c m a r ke t   p r i c e s   n a m e l y ,   (1)  " c ha rt i s t "   o r   " t e c hn i c a l "   t h e o r i e s   a nd  (2 t h e   t h e o r y   o f un da m e nt a l   o r   i n t ri n s i c   v a l ue   a na l y s i s   [2],   [15].   B a s e o n   Cha r t i s t   t h e o ri e s   [15],   t h e   pa s t   b e h a v i o r   o s t oc k   m a r ke t   p r i c e s   ha v e   l a rge   a m o u n t s   o f   i n f o r m a t i o n   t ha t   w i l l   l e a t o   i t s   f ut u r e   b e h a v i o r .   T h e   pa t t e rn   o f   pa s t   b e h a v i o r   w i l l   r e pe a t   a n t e nd  t o   h a p pe n   a g a i n   i n   t h e   f ut ur e .   By   a n a l y z i ng  p ri c e   c h a r t s ,   i t   c a n   h e l de v e l o a   c l e a r e r   u n de r s t a n di ng  o f   t h e   pa t t e rn s   a n d   t h e   v a l ua b l e   pa t t e rns   ob s e r ve c a n   t h e n   b e   us e t o   pr e di c t   t h e   f ut u r e   b e h a v i o r   o f   pr i c e s   a n d   c a n   h e l i n c r e a s e   e xpe c t e ga i n s .   A s   t hi s   r e s e a r c h   i s   o f   t h e   o pi ni o t ha t   da t a   c a n   r e v e a l   pa t t e rn s   a n a i d   u n de r s t a ndi n g ,   w e   t h e r e f o r e   w i l l   m a ke   us e   of   t h e   e xi s t i n g   n e w s   a n a da p t   a v a i l a b l e   m o de l l i n f o r   t h e   c l a s s i f i c a t i o n   a nd  p r e di c t i o n .   T h e   go a l   o f   t h e   s t o c m a r ke t   p r e di c t i o n   i s   b a s i c a l l y   a bo ut   mak i n t h e   p r e di c t i o n   o f   s o m e   a s pe c t s   of   t h e   s t o c m a r ke t   s uc h   i n c r e a s e   o r   de c r e a s e   i n   p r i c e s   [6].     T h e   i n c o m i n n e w s   c a n   b e   a na l y s e a n c l a s s i f i e a s   t r y i n g   t o   po r t ra y   m e s s a ge s   t h a t   s t o c pri c e   i s   go i ng  t o   i n c r e a s e   o de c r e a s e .     In  ge n e ra l ,   i s t o c m a r ke t   a na l y t i c s ,   t h e r e   a r e   de s c r i p t i v e   a n p r e di c t i v e   m e a s u r e s   [7,   17] .   D e s c r i pt i v e   m e a s u r e s   i n v o l v e s   c a l c ul a t i o n s   o f   s i m pl e   m e a s u r e s   of   c o m po s i t i o n   a n t h e   d i s t ri b ut i o n   o v a r i a b l e s .   F un d a m e nt a l   a n t e c hn i c a l   a na l y s e s   i n c l ude   p r e di c t i v e   m e a s ur e s   i n   t h e   a na l y s i s .   F un d a m e n t a l   a n a l y s i s   fo c u s e s   o n   s t udy i n t h e   c o m pe t i t o r,   m a r ke t s ,   a n b us i n e s s   [7,   11] .   T e c hni c a l   a na l y s i s   fo c us e s   o n   hi s t o ri c a l   p r i c e s   a na l y s i s ,   w h i c l e a ds   t o   de t e r m i n i ng  t h e   upc o m i n g   r e s ul t s   o f   s t oc pri c e s   [11,   15 ,   18] .     T e xt   m i ni n g   i s   a   t e c hn i que   t h a t   i n v o l v e s   e xt r a c t i ng  v a l u a b l e   i n f o r m a t i o a nd  p a t t e rn  [12 - 14] .   T h e r e   i s   a   h u ge   a m o u n t   o f   a c c e s s i b l e   da t a   i n   t h e   i n f o r m a t i o n   p r o duc t i o n   t ha t   w o ul b e   t h e   r e s o ur c e s   fo r   t h e   f u n da m e n t a l   a n a l y s i s .   A   b i gge r   a m o unt   o f   t e xt   i s   s pr e a o ve r   t h e   i n t e rn e t   l i ke   b l o g s   o r   s o c i a l   m e di a .   It   i s   qui t e   c h a l l e n gi n g   t o   de t e r m i n e   t h e   pa t t e rn s   a nd  t r e nds   t o   e xt r a c t   v a l ua b l e   kn o w l e dge ;   n e ve r t h e l e s s ,   i t   i s   po s s i b l e   t o   a n a l y z e   t h i s   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   16 ,   N o .   2 N o v e m be r   2 019   :     10 50   -   10 58   1052   h u ge   a m o unt   o f   da t a   a n r e m o v e   un n e c e s s a r y   i n f o r m a t i o n   f ro m   i t .   N e xt ,   t h i s   ki nd  o f   i n f o r m a t i o n   c a n   b e   us e d   i n   m a n y   a ppl i c a t i o n s   s uc h   a s   m a rke t   i n v e s t i ga t i o n   a n s t o c m a rke t   pe r f o rm a n c e   f o r e c a s t i n [ 7,   8 ,   11 ,   12 ].   T e xt   m i ni n f ul f i l l s   i t s   m a i n   go a l   by   t h e   po s s i b l e   i de nt i f i c a t i o n   o us e f ul ,   a c c ur a t e ,   u n de r s t a n d a b l e   c o r r e l a t i o n s   a nd  p a t t e rn s   i n   t h e   da t a ,   a n t h i s   c a b e   a c hi e v e by   m o de l l i n g   us i n g   de s c r i p t i v e   a n d   p r e d i c t i v e   na t u r e   [6 - 17] .   D e s c r i p t i v e   m o de l   i s   b a s i c a l l y   a bo ut   f i n di ng   a n i de n t i f y i n t h e   p a t t e rn s   o r   r e l a t i o n s hi ps   i da t a s e t s ,   w h i l e   p r e di c t i v e   m o de l   i s   a bo ut   m a ki n a   p r e di c t i o n   a b o ut   w h a t   i s   c o m i n n e xt   us i n m e a n i ngf ul   e xi s t i n d a t a .   C a t e go ri z a t i o n   t e c hni que   i n   p r e di c t i v e   a n a l y t i c s   i n v o l ve s   us i n s upe r v i s e l e a rn i ng  m e t h o d.   I t   r e qui r e s   t h e   e xa m pl e s   o de s i r e o ut put   t o   c l a s s i fy   n e w   d o c um e nt s   s uc h   a s   S uppo r t   V e c t o r   M a c hi n e   (S V M ),   S uppo r t   V e c t o r   R e gr e s s i o n   (S V R ),   D e c i s i o n   T r e e   (D T ),   A r t i f i c i a l   N e ur a l   N e t w o r (A N N ),   a n N a ï v e   B a y e s   (N B ),   a l l   o f   w h i c c a n   b e   us e t o   c a t e go r i z e   t h e   t e xt   o do c um e nt s   [6 ,   5,   10,   17] .   T hi s   p r o c e s s   i n c l ude s   p r e - pr o c e s s i n g,   i n de xi n g ,   d i m e n s i o na l   r e duc t i o n ,   a n c l a s s i f i c a t i o n   [1 3,   19 - 21] .   A c c o r di ng  t o   G a i kw a rd  e t   a l . ,   [12]  i n f o r m a t i o n   o r   t e xt u a l   d a t a   c a n   b e   pr e s e n t e i f o ur   f o r m s   n a m e l y   T e r m   B a s e M e t h o (T B M ),   P hra s e   B a s e M e t h o (P B M ),   Co n c e pt   B a s e M e t h o (CB M a n P a t t e rn   T a xo n o m y   M e t h o (P T M ).   M o s t   of  t h e   r e s e a r c h e s   i n   s t o c m a r ke t   us i ng  b a gs   of  w o r (B o W ),   w h i c h   i s   t h e   T B M   t o   r e pr e s e n t   t h e     f e a t ur e s   [5,   7,   10,   18] .   T h o ug h   s o   t h e r e   a r e   o t h e r   s t udi e s   w h i c h   ha v e   us e d   c o m b i n a t i o n   o f   w o r ds   a s   t h e   f e a t ur e   s e t   [22 - 23],   a n t h i s   r e p r e s e n t a t i o n   i s   ha r d l y   fo un i n   s t o c m a r ke t   f i na n c i a l   n e w s .   T hi s   e ffo r t   i t e xt   m i ni n g   ha v e   b e e n   e m p l oy e t o   e nha n c e   t h e   r e l e v a n c e   a n d   a c c ura c y   of   r e s ul t s   [24 - 2 8].       3.   R ES EA R C H   M ET H O D   P r e l i m i n a r y   s t u di e s   t a k e   pl a c e   a t   t h e   be gi n n i n g   of  t h e   pr oc e s s   o t h e   d e ve l opm e n t .   D ur i n g   t h i s   ph a s e ,   a l l   i d e a s   a n d   i n fo r m a t i o n   a r e   ga t h e r e d   t h r o u gh   r e a d i n g   t h e   r e l e va n t   j our n a l s ,   a r t i c l e s ,   book s   a n d   a ut h o r i t a t i ve   w e bs i t e s   o n   s t oc k   m a r k e t   a n a l y s e s .   T h i s   s t ud y   a t t e m pt s   t c a pt ur e   da t a   r e ga r d i n t h e   s t oc k   m a r k e t   o n   o n l i n e   w e bs i t e s   i . e .   T h e   E dg e , ( h t t p s : / / w w w . t h e e d g e m a r k e t s . c om f r o m   201 4   t i l l   20 18 w i t h   a n   e x a m pl e   i n   F i gur e   for   a n   a r t i c l e   da t e d   S e pt e m be r   4,   2018,   w i t h   t h e   t i t l e   H ur d l e   for   A x i a t a   a t   RM 4. 83,   s a y s   A l l i a n c e D BS   Re s e a r c h .   T h i s   s t u d y   a i m s   t n a r r ow   dow n   t h e   s c op e   a n d   h a ve   c h os e n   o n l y   fi ve   of  t h e   t op   m a r k e t   c o n s t i t u e n t s   f r om   F T S E   Bur s a   M a l a y s i a   K u a l a   L um pur   C om p os i t e   In d e x   ( F BM K L CI ).   M e a n w h i l e ,   t h e   h i s t o r i c a l   pr i c e s   w e r e   c a pt ur e d   f r om   Y a hoo!   F i n a n c e .   T h e   r e l a t e d   c om pa n i e s   a r e   A xi a t a   G r ou p,   C IM G r oup  H ol di n g s ,   M a l a y a n   Ba n ki n g,   P e t r o n a s   Ch e m i c a l s   G r oup  a n S i m e   D a r by .     3. 1 .       N u me r i c al   D at a   N um e ri c a l   d a t a   a r e   s t ruc t u r e i n f o r m a t i o n ,   a n i n   t h i s   s t u d y ,   i t   r e f e r s   t o   t h e   h i s t o r i c a l   p ri c e s   t h a t   w e r e   ga t h e r e d   f r o m   Y a h o o   F i n a n c e   w e bs i t e .   T h e   i n fo r m a t i o n   l i n k e d   w i t h   t h e   h i s t o r i c a l   pr i c e s   a r e   a l s c a pt ur e d   t h a t   i n c l u d e s   t h e   s e t   of  va r i a b l e s   n a m e l y   op e n   pr i c e ,   h i gh   pr i c e ,   l ow   pr i c e ,   a d j u s t e d   c l os e   a n vol u m e   of  t r a d e .   T h e   hi s t o r i c a l   p r i c e s   a r e   us e t o   a l l o w   t h e   l a b e l l i n g   o r   t a g gi n g   t h e   a r t i c l e s   t o   t h e i a b i l i t y   t a f fe c t   s t o c p r i c e s   i ge n e ra l .             F i gu r e   1 .   E xa m p l e   o f   t e xt ua l   da t a   f r o m   t h e   E dge   m a rke t   p ub l i c a t i o n       3. 2 .       Te xt u a l   D at a   A s   op p os e d   t n um e r i c a l   da t a ,   t e x t ua l   da t a   i s   ba s i c a l l y   i n   t h e   fo r m   of  t e xt   w h i c h   i s   un s t r u c t ur e d a t a   o n   t h e   o n l i n e   n e w s .   A   s c r i pt   i s   i n c o r p o r a t e a n d   c r a w l e for   da t a   r e l a t e t t h e   s t oc k   m a r k e t ,   a n i n   our   s t u d y ,   t h i s   i s   b a s e o n   c h os e n   c om p a n i e s   i n   M a l a y s i a   foun o n   T h e   E d g e   M a r k e t   w e bs i t e .   N e x t ,   t h e   g a t h e r e d   a r t i c l e s   w h i c h   c o n t a i n   u s e ful   i n fo r m a t i o n   s u c h   a s   t h e   t i t l e ,   a r t i c l e ,   a n t i m e   t h e   n e w s   w a s   i s s u e d.   T h e s e   a r t i c l e s   a r e   s t o r e d   i n   J S O N   fi l e   for m a t   for   fur t he r   a n a l y s i s   u s i n g   s t a t i s t i c a l   t ool s   for   s i m pl e   obs e r va t i o n s .   D a t a   a n a l y s i s   w a s   c a r r i e d   out   t c o m pr e h e n d   t h e   di s t r i but i o n   of  t h e   t e xt ua l   da t a s e t   t h a t   i s   c a pt ur e d.   F ur t h e r m o r e ,   t h e   pr oc e s s   a l s h e l p e d   t di s c ove r   t h e   n oi s e s   o r   ou t l i e r s   i n   t h e   da t a .   F r o m   t h e   obs e r va t i o n s   d o n e ,   t h e   r e dun da n c i e s   of  t h e   a r t i c l e s   c a n   b e   a voi d e d   i n c l udi n g   un r e l a t e d   a r t i c l e s   i n   o t h e r   l a n g ua g e s   s u c h   a s   M a n da r i n   o r   In di a n   a r t i c l e s .   N e xt ,   t e xt ua l   for m a t ,   w h i c h   i s   un s t r u c t ur e d   fo r m a t ,   n e e d s   t be   t r a n s fo r m e d   t s t r u c t ur e d   for m a t   i n   o r d e r   t c a r ry  ou t   fu r t h e r   t r a i n i n g   a n d   t e s t i n g   pr oc e s s e s .     T h e   s ub s e que n t   s t e i s   d a t a   c l e a n s i ng  t o   r e m o v e   t h e   r e du n d a n c i e s   o f   t h e   a r t i c l e s   o r   do c um e nt s   by   f i n di n g   t h e   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A nal y t i c s   of   s t o c k   m ar k e t   pr i c e s   bas e d   on   m ac h i n e   l e ar n i ng   ( P ut e r i   H as y D am i A bd   Sam a d )   1053   s i m i l a ri t i e s   o f   t h e s e   t y pe   of   un s t r uc t u r e d a t a .   P y t h o n   s c r i pt   w a s   us e t o   f i nd  t h e   s i m i l a r i t y   of   t h e   c u rr e n t   a r t i c l e   w i t h   n e xt   a rt i c l e ,   a nd  t h e   u nn e c e s s a r y   a r t i c l e s   w e r e   r e m ov e d.   A f t e r   r e m o v i n t h e   r e du n da nt   a rt i c l e s ,   t h e   pun c t u a t i o n   a n s y m bo l s   w e r e   di s c a r de f r o m   t h e   c o n t e nt   (o t h e   a rt i c l e s ).   T a b l e   s h ow s   t h a t   t h e r e   a r e   n o   a rt i c l e s   c a p t u r e o n   t h e   p a r t i c ul a d a t e s ,   i t   w i l l   b e   m a r k e d   a s   ‘N o n e ’  a n d   w i l l   r e m o v e d.       T a b l e   1 .   S a m p l e   o f   H i s t o r i c a l   P r i c e s   a nd  R e l a t e A rt i c l e s   D a t e   A rt i c l e   O p e n   H i g h   L o w   Cl o s e   A d j   Cl o s e   V o l u m e   2 / 1 / 2 0 1 4   A rt i c l e   1   6 . 9 2   6 . 9 4   6 . 8 4   6 . 9 2   6 . 1 7 6 8 7 1   4 5 6 6 1 0 0   3 / 1 / 2 0 1 4   N o n e   6 . 8 8   6 . 8 8   6 . 8 0   6 . 8 0   6 . 0 6 9 7 5 8   4 2 6 1 8 0 0   6 / 1 / 2 0 1 4   N o n e   6 . 8 0   6 . 8 1   6 . 7 7   6 . 8 0   6 . 0 6 9 7 5 8   1 0 5 1 9 6 0 0   7 / 1 / 2 0 1 4   A rt i c l e   2   6 . 8 0   6 . 8 0   6 . 7 6   6 . 7 9   6 . 0 6 0 8 3 2   6 1 6 6 4 0 0   8 / 1 / 2 0 1 4   A rt i c l e   3   6 . 7 9   6 . 7 9   6 . 7 6   6 . 7 7   6 . 0 4 2 9 8 0   4 3 9 3 3 0 0       3. 3     Bags   o Wo r d   ( B o W)   T h e   b a gs   o f   w o r (B oW w e r e   e xt r a c t e t hr o ug h   s e v e r a l   s t e ps   o t h e   a r t i c l e s ,   i n c l udi ng  t o ke n i z a t i o n,   s t o w o r ds   r e m o v a l ,   P o rt e r’s   w o r s t e m m i n g   a n d   a l s o   r e m o v a l   o f   t h e   a t t r i b ut e s   (w o r ds t ha t   c a rr y   i rr e l e v a n t   i n f o r m a t i o n .   A f t e r   r e m o v i n t h e   u nn e c e s s a r y   a t t r i b ut e s   (w o r ds ),   t h e   C hi - s qua r e   t e s t   w a s   pe r f o r m e o n   e a c h   w o r t o   r e duc e   t h e   B o W   i n t o   s i g n i f i c a n t   a n m e a ni n gf ul   f e a t u r e s   t h a t   r e p r e s e n t   e xpl a n a t o r y   pow e r   of   t h e   f e a t u r e s .   S m a l l e r   da t a s e t   i s   us e f ul   fo r   l e a rni n p r o c e s s   a s   i t   w i l l   r e duc e   c o m put a t i o n a l   t i m e   t hr o ug h o ut   t h e   de v e l o pm e n t .   T h e   w o r ds   w i t h   z e r o   C h i - s qua r e   v a l ue   a r e   t h e   w o r ds   t h a t   a ppe a r   c o n s i s t e n t l y   i n   po s i t i v e   a n n e ga t i v e   doc um e n t s .   O n   t h e   c o n t ra r y ,   t h e   f e a t ur e s   t ha t   a r e   n o t   c o n s i s t e n t   i n   po s i t i v e   a n n e ga t i v e   t e n t o   ge t   h i g h e r   v a l ue s   i n   C hi - s q u a r e   a n t h e   h i g h e s t   v a l ue .   T h e   t o t a l   n u m b e r   of  Bo W   fo r   po s i t i v e   a nd  n e ga t i v e   w o r ds   a r e   7121  a nd  687 re s pe c t i v e l y .   B e y o n t ha t ,   t h e   f r e que n c y   of   e a c h   w o r w a s   c a l c ul a t e d .   T h e   f i r s t   100   w o r ds   t ha t   h e l t h e   hi g h e s t   f r e que n c y   w e r e   s e l e c t e t o   be   us e i n   t h e   t r a i ni n g   a n t e s t i n g   da t a s e t s .   S a m p l e   o f   t h e   o ut put s   f ro m   t o ke n i z a t i o n   a n s t e m m i ng  c a n   b e   fo un   i n   F i gu r e   2.       F i gu r e   2 .   O u t put   o f   t o ke n i z a t i o a n d   s t e m m i ng  p r o c e s s   O ri g i n a l   W o rd s   S h a r e s   v a l u e d   a t   R M 2 0 9 . 7 4   m i l l i o n   T o k e n i z a t i o n   S h a r e   v a l u e d   at   RM 2 0 9 . 7 4   m i l l i o n   S t e m m i n g   S h a r e   v a l u e   at   RM 2 0 9 . 7 4   m i l l i o n       3. 4 .      Bags   o C o m b i n ati o n   o Wo r d s   (B o C W)   T h e   s e c o n s e t   o f   f e a t ur e s   w e r e   c o n s t r uc t e us i ng  t h e   b a gs   of   c o m b i n a t i o o f   w o r ds   (B o CW ).     T h e   Bo CW   w a s   e xt ra c t e by   a ppl y i n A p r i o r i   a l go ri t hm   us i n W E K A ,   a s   s h o w n   i n   F i gu r e   [22].     T h e   ge n e r a t e r u l e s   f r o m   A pr i o r i   w a s   s e t   w i t h   m i ni m um   s u ppo r t   o f   0. a nd  c o n f i de n c e   l e ve l   i s   e qua l   t o   1.   T h e   t o 1000  r u l e s   w e r e   s e l e c t e t o   r e pr e s e n t   t h e   f e a t ur e s   i t hi s   n e w   da t a s e t .   F i gu r e   di s p l a y s   t h e   e xa m pl e   of   Bo CW   i t h e   da t a s e t .   B o CW   w a s   m a ppe b a c t o   e a c o f   t h e   a rt i c l e   t o   ge t   t h e   f r e que n c y   of   e a c h   f e a t u r e .             F i gu r e   3 .   P s e udo   c o de   f o r   a p ri o r i   a l go ri t hm         Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   16 ,   N o .   2 N o v e m be r   2 019   :     10 50   -   10 58   1054       F i gu r e   4 .   E xa m p l e   o f   Bo CW       3. 5 .       D at L ab e l i n g   D a t a   l a b e l l i n w o r ks   by   c a l c ul a t i n t h e   r a t e   of   c h a n ge   b a s e d   o n   t h e   o pe n i n a nd  c l o s i n p r i c e s   f r o m   t h e   hi s t o ri c a l   p ri c e s   a c c o r di n t o   t h e   l a b e l   of   p o s i t i v e ,   w h e r e   c l o s i n p r i c e   i s   h i g h e r   t ha n   o pe ni n o r   n e g a t i v e ,   w h e r e   c l o s i n pri c e   i s   l ow e r   t h a n   o pe n i ng  [11] - [15 ].   D a t a   l a b e l l i n i s   m e a nt   f o r   t e xt ua l   da t a   f o r   de t e r m i n i ng  t h e   a r t i c l e s   a s   t o   w h e t h e r   t h e y   gi v e   p o s i t i v e   o r   n e ga t i v e   o ut put s   t o   t h e   s t o c a s   s h ow n   i n   T a b l e   2.   T h e   e qua t i o n   i s   a s :     y   =   po s i t i v e   (1)     n e ga t i v e   (2)     =            T a b l e   2 .   L a b e l l i n g   t h e   H i s t o r i c a l   a n N e w s   H i s t o r i c a l   i n f o r m a t i o n   N e w s           F o r   e a c h   of   t h e   da t a   c o l l e c t e i . e .   t e xt ua l   a nd  num e r i c a l ,   t w o   s e pa r a t e   m o de l s   w e r e   de ve l o p e d.     T h e   S uppo rt   V e c t o r   M a c hi n e   (S V M w a s   us e t o   l e a rn  f r o m   t e x t ua l   d a t a ,   a n d   t h e   R a n do m   F o rr e s t   w a s   us e t o   l e a rn   f r o m   n um e ri c a l   hi s t o r i c a l   da t a .   T h e   e n t i r e   p r o c e s s e s   i n v o l ve i t h e   r e s e a r c i s   p r o v i de i F i gu r e   5.   T w o   s e t s   o f   e xpe r i m e nt s   w a s   pe r f o r m e a s   d e s c r i b e i t h e   ne xt   s e c t i o n           F i gu r e   5 .   F l o w   of   t h e   p r o c e s s e s   i t h e   r e s e a r c h   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A nal y t i c s   of   s t o c k   m ar k e t   pr i c e s   bas e d   on   m ac h i n e   l e ar n i ng   ( P ut e r i   H as y D am i A bd   Sam a d )   1055   3. 6     Ex p e r i m e n 1 C l as s i fi c ati o n   P o s i ti v e   o r   N e gati v e   b a s e d   o n   B o an d   B C o W   T h e   pr o c e s s   of   m o de l l i n t h e   p r e di c t i o n   s y s t e m   w i t h   S V M   a l go ri t hm   w a s   pe r f o r m e by   s pl i t t i n g   da t a   i n t o   t ra i ni n a nd  t e s t i n s e t s .   T h e   o pt i m u m   pa ra m e t e rs   fo r   t h e   m o de l   w e r e   ob t a i n e w i t h   a   s e ri e s   of  e xpe r i m e nt s   du r i ng   m o de l   t e s t i ng.   Cl a s s i f i e r   a c c u r a c y   o n   a   t e s t   s e t   i s   m e a s u r e by   i t s   a b i l i t y   t o   c l a s s i fy     t h e m   a c c u r a t e l y .     3. 7 .       Ex p e r i m e n 2 P r e d i c ti o n   u s i n N u m e r i c   V al u e s   T h i s   s e c o n e xp e r i m e n t   a p pl i e t h e   R a n d om   F o r r e s t   m od e l   t pr o du c e   pr i c e   pr e di c t i o n   ba s e d   o n   h i s t o r i c a l   pr i c e s .   T h e   ( Ra n d o m   F o r r e s t )   m o d e l   i s   e ffi c i e n t   a t   h a n dl i n g   t a bul a r   da t a   w i t h   n um e r i c a l   fe a t ur e s ,   o r   c a t e g o r i c a l   fe a t ur e s   w i t h   fe w e r   t h a n   h un dr e d s   of  c a t e g o r i e s .   T h e   n um e r i c a l   da t a s e t   i s   di vi d e d   i n t o   t r a i n i n a n t e s t i n a c c o r di n t o   t h e   p e r c e n t a g e   of  7 0% / 30 a n 8 0%/ 20 r e s p e c t i ve l y .       4.   R ES U LTS   A N D   A N A L Y S I S   4 . 1 .       A n a l ys i s   o T e x tu al   D ata   D a t a   a na l y s i s   o n   t h e   d a t a s e t   w a s   c a rri e o ut   t o   unde r s t a n d   t h e   da t a   a n p r e s e nt e g r a p h i c a l l y   t c o m pr e h e n i t s   d i s t ri b ut i o n.   F i g u r e   i l l us t r a t e s   t h e   t o t a l   da t a   i n c l ud i n t e xt ua l   d a t a   a nd  hi s t o ri c a l   p ri c e s   f r o m   e a c h   c o m pa n y .   It   s h o w s   t h a t   t h e   t o t a l   n u m b e r   o f   t e xt ua l   a n hi s t o ri c a l   d a t a   f o r   e a c c o m pa n y   i s   t o t a l l y   di f fe r e nt .   A s   s uc h,   t h e   a r t i c l e s   w i t h o ut   h i s t o r i c a l   d a t a   w e r e   r e m o ve d.   T a b l e   s h o w s   t h e   r e s ul t s   a f t e r e m o v i n g   a l l   r e du n d a n t   a r t i c l e s   f r o m   t h e   n e w s .   T h e   t o t a l   a m o u n t   o f   a r t i c l e s   t h a t   h a v e   be e n   di s c a r de i s   523  f r o m   6 368   a r t i c l e s .   N e v e r t h e l e s s ,   t h e   r e m a i n i ng  da t a s e t ,   w h i c h   c o nt a i n s   5845  a r t i c l e s   c a n   b e   us e f un c t i o n a l l y     i n   t h i s   s t udy .             F i gu r e   6 .   T h e   t o t a l   n um b e o f   da t a   f r o m   e a c c o m pa n y   T a b l e   3 .   T o t a l   N um b e o f   A r t i c l e s   A f t e r   R e m o v a l   a n Cl e a ni n g   P r o c e s s   Co m p a n y   Ra w   A rt i c l e   Re m o v e d   D a t a   Cl e a n e d   A rt i c l e   M a y b a n k   1720   154   1565   A x i a t a   496   22   474   CIM B   2513   182   2330   P e t ro n a s   1261   143   1114   S i m e   D a rb y   378   22   355         4 . 2     B o C as   F e atu r e   fr o m   Te x tu al   D ata   T h i s   s t udy   o n l y   t a ke s   t h e   f i r s t   20  c o m b i na t i o n   o f   w o r ds   t ha t   ha v e   c o n f i de n c e   l e ve l   e qua l   t o   fo r   e a c h   c o m pa n y .   T a b l e   s h o w s   t h e   e x a m p l e   o f   c o m b i n a t i o n s   of   po s i t i v e   a n d   n e ga t i v e   w o r ds   f r o m   A xi a t a .       T a b l e   4 .   Co m b i n a t i o n   o f   W o r ds   L i s t   o f   P o s i t i v e   W o r d s   L i s t   o f   N e g a t i v e   W o r d s   1 . d e v e l o p   p ro j e c t   2 . g a i n   i n d e x   3 . h i g h   i n d e x   4 . b u y   i n d e x   5 . i n d e x   k l c i   p o i n t   6 . re v e n u   p ro j e c t   7 . s a l e   p r o j e c t   8 . p o i n t   o i l   9 . c a p i t a l   d e v e l o p   1 0 . s a l e   d e v e l o p   1 . s c o re   n u m b e r   f u n d a m e n t   2 . re v e n u   b u s i   d i v i d e n d   s a y   3 . v a l u a t   n u m b e f u n d a m e n t   4 . o p e r   d i v i d e n d   5 . e d g   f u n d a m e n t   6 . s c o re   n u m b e r   f u n d a m e n t   7 . c l o s e   i n d e x   8 . d e c l i n   w e e k   9 . fe l l   k l c i   1 0 . d e c l i n   i n d e x       4 . 3 .       S V M   M o d e l l i n fo r   Te x tu al   D ata   S V M   w a s   e m pl oy e t o   t r a i a nd  t e s t   t h e   d a t a s e t s   a n d   t h e   e v a l ua t i o i s   b a s e o n   t h e   a c c ur a c y   of  s c o r e s .   T h e   da t a s e t s   a r e   di v i de i n t o   t ra i ni n g   a nd  t e s t i n g   a c c o r di n g   t o   t h e   gi v e n   pe r c e nt a ge   o f   70%/ 30 %,   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   16 ,   N o .   2 N o v e m be r   2 019   :     10 50   -   10 58   1056   80%/ 20 %,   a n 90% / 10%  r e s pe c t i v e l y .   S c i ki t - l e a rn   S V M   i m pl e m e nt a t i o n   w a s   e m pl oy e d   w i t h   s e v e r a l   pa r a m e t e r s   f o r   t hi s   s t udy .   T h e   ke rn e l   t ha t   i s   us e i n   t h i s   s t u d y   i s   t h e   R a di a l   B a s i s   F u n c t i o n   (R B F ).   N e xt ,   t hi s   s t udy   c o m pa r e s   t h e   p r e di c t i o n   b e t w e e n   Bo W   a n B o CW   fo r   e a c h   c o m pa n y .   E a c h   o f   i t   t a ke s   o n l y   a   m a xi m u m   f e a t ur e s   of   500.   T a b l e   s h ow s   t h e   s c o r i n b e t w e e n   B oW   a n B o CW .   A s   c a n   b e e n   s e e n ,   t h e   s e t   of   f e a t ur e s   t h a t   de m o n s t ra t e t h e   b e s t   a c c ur a c y   i s   Bo CW   w i t h   t ra i ni n a n t e s t i n pe r c e n t a ge   o f   90%  a n 10 %,   w h e r e b y   t h e   a v e r a ge   s c o r e   of   a l l   c o m pa ni e s   i s   68. 49 %,   a l t h o ug h   t h e r e   a r e   c o m pa ni e s   w h e r e   t h e   Bo W   i s   w e l l   pr e di c t e c o m pa r e t o   Bo CW .   H ow e v e r ,   t h e   f i n a l   a c c ura c y   f o r   e a c h   c o m pa n y   w a s   a ppr o xi m a t e l y   60%,   a n i t   i s   c o n s i s t e n t   w i t h   t h e   a c c ura c i e s   r e c o r de by   o t h e r   r e s e a r c h e r s   i n   r e l a t e s t udi e s   e xc e pt   fo r   S i m e   D a r b y   be c a u s e   t h e   da t a s e t   i s   b i a s e t ow a r po s i t i v e   w o r ds .   I n   c o m pa ri s o of   B oW   a n B o CW ,   t h e   B o CW   m o d e l   s h o w s   s l i g h t l y   h i g h e r   a c c u r a c y   f r o m   Bo W .   T hi s   c o ul b e   a n   i n d i c a t i o n   t h a t   B o CW   i s   be t t e r   a t   r e p r e s e n t i ng  t h e   d a t a   s e t   f o r   m a c hi n e   l e a rni n g   m o de l .       T a b l e   5 .   A c c ur a c y   fo r   B o W   a nd  B o CW   F e a t u r e   Co m p a n y   Bo W   ( A c c u ra c y   % )   Bo C W   ( A c c u ra c y   % )     7 0 / 3 0     8 0 / 2 0     9 0 / 1 0   7 0 / 3 0   8 0 / 2 0   9 0 / 1 0   A v e ra g e   M a y b a n k   6 2 . 9 6   6 3 . 2 5   5 9 . 8 3   6 1 . 2 5   5 8 . 9 7   6 2 . 3 9   6 1 . 4 4   A x i a t a   6 1 . 8 6   6 0 . 7 6   5 0 . 0 0   5 8 . 4 7   5 6 . 9 6   6 2 . 5 0   5 8 . 4 3   CIM B   5 5 . 0 3   5 4 . 7 9   5 4 . 1 0   5 4 . 8 4   6 0 . 2 7   5 8 . 4 7   5 6 . 2 5   P e t ro n a s   5 5 . 1 3   5 9 . 4 3   6 0 . 2 3   5 8 . 9 3   5 5 . 4 3   5 9 . 0 9   5 8 . 0 4   S i m e   D a rb y   9 9 . 0 2   9 8 . 5 3   100   9 9 . 0 2   9 8 . 5 3   100   9 9 . 1 8   A v e ra g e   6 6 . 8 0   6 7 . 3 5   6 4 . 8 3   6 6 . 5 0   6 6 . 0 3   6 8 . 4 9         4 . 4 .      R F   P r e d i c ti o n   u s i n H i s to r i c a l   D at a   R F   w a s   us e t o   m a ke   a   p r e di c t i o n   b a s e o n   h i s t o r i c a l   p r i c e s .   T h e   t r e n a na l y s i s   w a s   c a r ri e o ut   w i t h   i n f o r m a t i o o f   a c t ua l   p r i c e   a nd  p r e di c t i o p r i c e   by   da t e   a n d   m o n t h,   a n d   i t   w a s   f o un t ha t   t h e   a c t u a l   a n d   pr e di c t i o n   p ri c e s   a r e   qu i t e   s i m i l a r   b e c a us e   t h e   a c c ura c y   o f   p ri c e   pr e di c t i o n   i s   hi g h .   A i nt e r e s t i ng  t r e n l i n e   o n   t h e   a na l y s i s   s h o w s   t h a t   CIM B   e xpe r i e n c e de c r e a s i n s t o c m a r ke t   p r i c e   ov e r   t i m e .   T h e r e f o r e ,   i n v e s t o r s   m i g ht   h a v e   t o   r e a l l y   t h i nk  t h o r o ug h l y   t o   de c i de   w h e t he r   t o   i n v e s t   i n   CIM B .   N e xt ,   a   da s h b o a r o c l a s s i f i c a t i o n   o f   po s i t i v e   a n n e g a t i v e   a rt i c l e s   s e c t i o n   a nd  i t s   pr e di c t i o n   p r i c e   w a s   pr e pa r e d .   By   s h o w i n t h e   a r t i c l e s   a nd  i t s   p r e di c t i o n   p ri c e ,   t h e   us e r s   c a b e n e f i t   f r o m   t he   i n f o r m a t i o n   t o   b u y   o r   n o t   t h e   c o m pa n y ’s   s t o c k.   It   a l s o   gi v e s   t h e   a c t u a l   p r i c e   o f   t h e   s t o c ks   f o r   us e r s   t o   s e e   h o w   a c c ur a t e   t h e   p r e di c t i o n   p ri c e   i s .   F i gu r e   s h o w s   t h e   pa rt i a l   s c r e e n s h o t   o f   t h e   d a s h b o a r d   f o r   t h e   t r e nd  l i n e   g r a p f o r   CIM B   a rt i c l e s .           F i gu r e   7 .   T r e n l i n e s   o f   pr e di c t i o v s   a c t ua l       5.   C O N C LU S I O N   T h i s   p a pe r   p r e s e n t s   t h e   A na l y t i c s   o f   S t o c M a r ke t   ( P r i c e s )   b a s e o n   M a c h i n e   L e a rn i ng  A l go r i t h m s   by   us i n f i n a n c i a l   n e w s   a n hi s t o ri c a l   p ri c e   da t a .   T h e   da t a s e t   w a s   c o l l e c t e f r o m   t h e   E dge   M a r ke t   pub l i c a t i o n   f o r   t e xt u a l   da t a   a n d   Y a h o o F i na n c e   f or   hi s t o r i c a l   da t a .   T h e   p r o b l e m   i n   p r e d i c t i n g   t h e   s t o c pr i c e s   i s   m o de l l e t hr o ug h   da t a   m i ni n w i t h   m a c hi n e   l e a rn i ng  a l go ri t hm s   n a m e l y   t h e   S uppo r t   V e c t o M a c hi n e   a n d   t h e   R a n do m   F o r e s t .   T w o   s e t s   of   e xpe r i m e nt s   fo r   t h e   t e xt ua l   d a t a ,   w i t B o W   a n B o CW   a nd  a n o t h e r   s e t   o f   e xp e r i m e nt   f o r   t h e   hi s t o ri c a l   d a t a   by   us i n t h e   pe r c e n t a ge   s pl i t   m e t h o w a s   pe r f o r m e d.   T h e   Bo CW   w a s   e xt ra c t e us i n g   A p r i o r i   a l go r i t h m   w i t c o n f i de n c e   e qua l   t o   1 .   T h e   s e l e c t i o of  w o r ds / c o m b i n a t i o n   o f   w o r ds   i s   b a s e o n   t h e   f r e que n c y   i n   t he   w h o l e   a r t i c l e s .   B a s e o n   t h e   r e s ul t s   p r o duc e d,   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A nal y t i c s   of   s t o c k   m ar k e t   pr i c e s   bas e d   on   m ac h i n e   l e ar n i ng   ( P ut e r i   H as y D am i A bd   Sam a d )   1057   t h e   a n a l y t i c s   ga i n e m o r e   t h a n   60 a c c u r a c y   fo r   t h e   t e xt u a l   a n a l y t i c s ,   a nd  90%  f o r   t h e   n u m e r i c a l   a na l y t i c s .   W i t h   t h e   us e   o f   t e xt   pr o c e s s i n a n m a c h i n e   l e a rn i ng,   t h i s   s t udy   w a s   a b l e   t o   de l i ve r   t h e   a p p r o pri a t e   m e t h o ds   a n t e c hn i que s   us e by   t h e   o t h e r   r e s e a r c h e r s .   T hi s   s t u dy   a l s o   pr o du c e t h e   r e c o m m e nda t i o n s   s uc h   a s   d i s pl a y   t h e   f ut ur e   p ri c e   of   a   pa r t i c ul a c o m pa n y   us i n d a s h b o a r d ,   t hi s   i n f o r m a t i o n   c a b e   h e l pi ng  i n v e s t o r s   t o   de c i de   i n   b u y i n t h e   p r o duc t   o r   n o t   t o   i n v e nt .   F u rt h e r m o r e ,   f ut u r e   w o r ks   n e e t o   e xpa nd  t h e   c o m pa n i e s   s e l e c t ed   to   b e   e xpe r i m e n t e d / s t udi e d   i n   t hi s   s t udy .   T hi s   i s   b e c a us e   m a n y   i n v e s t o r s   c a n   us e   t h i s   d a s h b o a rd   a s   r e f e r e n c e   t c o m pa r e   t h e   pr e di c t i o n   m a de   by   a n y   o t h e r   t o o l s   a s   w e l l .   L a s t   b ut   n o t   l e a s t ,   t h e   o ut put   o t h i s   s t udy   c a n   a l s o   be   t h e   i nt e g r a t e d   i n   r e po r t   t o   m o ni t o t h e   r e a l   t i m e   o f   s t o c m a rke t   p r e di c t i o n .       A C K N O WL ED G E M EN TS   T h e   a ut h o r s   w o ul l i ke   t o   t ha n t h e   R e s e a r c h   M a na ge m e n t   Ce n t r e   o f   U n i v e r s i t i   T e kn o l o gi   M A R A   fo r   s uppo rt i n g   t hi s   r e s e a r c h   w i t h   L E S T A R 111/ 201 gra n t   a n d   I n s t i t u t e   o f   Q ua l i t y   &   K n ow l e dg e   A dv a n c e m e nt   (I nQ K A f o r   t h e   pub l i c a t i o s uppo r t .       R EF ER EN C ES   [ 1]   R .   M y š kov á ,   e t   a l . ,   P r e d i c t i ng   A bno r m a l   S t o c R e t ur n   V o l a t i l i t y   U s i ng   T e xt u a l ,   J o ur n al   of   A m f i t e at r u   E c onom i c ,   v o l .   20( 47) ,   pp .   185 - 202 ,   201 7.   [ 2]   M .   K ha n,   e t   a l . ,   F i na nc i ng   a nd  m o ni t o r i n g   i a e m e r g i ng   e c o nom y :   C a i nv e s t m e nt   e f f i c i e nc y   be   i nc r e a s e d? ,   J our nal   o f   C hi na  E c on om i c   R e v i e w ,   v o l .   45( C ) ,   p 62 - 77 ,   2 017 .   [ 3]     S .   J .   G r o s s m a a nd  J .   E .   S t i g l i t z ,   O t he   i m po s s i b i l i t y   of   i nf o r m a t i o na l l y   e f f i c i e nt   m a r k e t ,   J ou r na l   of   T he   A m e r i c an   E c onom i c   R e v i e w ,   v o l .   70 ( 3 ) ,   pp .   393 408 ,   198 0.   [ 4]     B .   R o s e nb e r g ,   e t   a l . ,   P e r s ua s i v e   e v i de nc e   o f   m a r k e t   i ne f f i c i e nc y ,   J o ur na l   of   P or t f ol i M a nage m e nt ,   v o l .   11 ( 3) ,   pp.   9 16,   1 985;   D O I :   ht t p s : / / do i . o r g / 10 . 3 905 / j pm . 19 85 . 409 007 .   [ 5]     R .   S c hum a k e r   a nd  H .   C h e n,   T e xt u a l   a na l y s i s   o f   s t o c m a r ke t   p r e di c t i o u s i ng   br e a ki ng   f i n a nc i a l   ne w s ,   J our n al   of   A C M   T r ans ac t i o ns   on   I nf o r m a t i o Sy s t e m s ,   v o l .   2 7,   p p.   1 - 19 ,   20 09.   [ 6]     A .   N i kf a r j a m ,   e t   a l . ,   T e xt   m i n i ng   a ppr o a c he s   f o r   s t o c m a r ke t   p r e di c t i o n,   T he   2nd  I n t e r na t i o na l   C on f e r e nc e   on  C om put e r   and   A u t om a t i on   E ng i ne e r i ng   ( I C C A E ) ,   S i ng apor e ,   v o l .   4 ,   pp.   2 56 - 260 ,   2010 .   [ 7]   M .   H a g e na u ,   e t   al . ,   A ut o m a t e ne w s   r e a di ng :   S t o c pr i c e   pr e d i c t i o b a s e o f i na nc i a l   ne w s   u s i ng   c o nt e x t - s pe c i f i c   f e a t u r e s ,   J ou r na l   o f   P r oc e e di ngs   o f   t he   A nnu al   H aw ai i   I n t e r nat i o nal   C o nf e r e nc e   on  Sy s t e m   Sc i e nc e s ,   pp .   1040 - 104 9,   20 12.   [ 8]     E .   L upi a n i - R ui z ,   e t   a l . ,   F i n a nc i a l   ne w s   s e m a nt i c   s e a r c e ng i ne ,   J our na l   o f   E x pe r t   Sy s t e m s   w i t A p pl i c a t i ons ,   v o l .   38,   pp .   155 65 1 5572 ,   201 1.   [ 9]     M .   K ha a nd  S .   K ha n,   D a t a   a nd  i nf o r m a t i o v i s ua l i z a t i o m e t h o ds ,   a nd  i n t e r a c t i v e   m e c ha ni s m s ,   I nt e r n at i on al   J our nal   o f   C om pu t e r   A p pl i c a t i on s ,   v o l .   3 4( 1 ) ,   p p.   1 14 ,   2 011 .   [ 10]   K .   L e e   a nd   R .   T i m m o ns ,   P r e di c t i ng   t he   s t o c m a r ke t   w i t h   ne w s   a r t i c l e s ,   pp .   1 - 8,   20 07 .   [ 11]     A .   R a hm a n,   e t   a l . ,   M i n i ng   T e x t ua l   T e r m s   f o r   S t o c M a r ke t   P r e d i c t i o A na l y s i s   U s i ng   F i n a nc i a l   N e w s ,   pp .   293 304,   2 017 .   [ 12]     S .   G a i kw a d,   e t   a l . ,   T e x t   M i ni ng   M e t ho ds   a nd  T e c hni q ue s ,   I n t e r nat i ona l   J ou r na l   o f   C om p ut e r   A pp l i c at i on s ,   v o l .   85( 1 7) ,   pp.   9 75 8 887 ,   ht t ps : / / do i . o r g / 10 . 512 0/ 1 4937 - 35 07 ,   2 014 .   [ 13]     T .   R a m z a n,   e t   a l . ,   T e xt   M i n i ng :   T e c hni que s ,   A ppl i c a t i o ns   a n I s s ue s ,   ( I J A C SA )   I n t e r nat i on al   J our nal   o f   A dv an c e C om pu t e r   Sc i e nc e   and   A p pl i c a t i ons ,   v o l .   7 ( 11 ) ,   p p.   41 4 418.   2 016 .   [ 14]     W .   F a n,   e t   a l . ,   T a pp i ng   t he   po w e r   o f   t e xt   m i ni ng ,   J ou r na l   o f   C o m m uni c at i on s   of   t he   A C M ,   v o l .   49 ( 9) ,   pp .   76 82 ,   2006   [ 15]     E .   F a m a ,   T he   B e ha v i o r   o f   S t o c M a r k e t   P r i c e s ,   J ou r na l   of   B us i ne s s ,   v o l .   38 ,   no .   1,   pp .   34 - 105 ,   1965 ,   d o i : 10. 1086/ 2947 43   [ 16]     R .   J a m e s ,   e t   al . ,   2 012 ,   B us i n e s s   A na l y t i c s :   T he   N e x t   F r o nt i e r   f o r   D e c i s i o S c i e nc e s ,   20 19,   ht t p: / / f a c ul t y . c bpp. ua a . a l a s k a . e du / a f e f / b us i ne s s _ a na l y t i c s . h tm .   [ 17]     K .   A gy a p o ng ,   e t   al . ,   A O v e r v i e w   o f   D a t a   M i n i ng   M o de l s   ( D e s c r i pt i v e   a nd   P r e d i c t i v e ) ,   ( I J our n al s )   I n t e r na t i ona l   J our nal   o f   So f t w ar e   &   H ar dw ar e   R e s e ar c h   i E ngi ne e r i ng ,   v o l .   4( 5 ) ,   pp .   53 60,   2 016 .     [ 18]     M .   D a ng   a nd   D .   D uo ng ,   I m pr ov e m e nt   m e t ho ds   f o r   s t o c m a r ke t   pr e d i c t i o u s i ng   f i na nc i a l   ne w s   a r t i c l e s ,   ( N I C S)   2016  3r d   N at i o nal   F ounda t i o f or   Sc i e nc e   and   T e c hno l og y   D e v e l o pm e nt   C on f e r e nc e   on  I nf or m a t i on  and  C om pu t e r   Sc i e nc e ,   pp .   125 129 ,   201 6.   [ 19]     R .   A g r a w a l   a n M .   B a t r a ,   A   de t a i l e d   s t udy   o t e xt   m i ni ng   t e c hni qu e s ,   ( I J S C E )   I n t e r na t i ona l   J o ur n al   o f   S of t   C om put i ng   an E ng i ne e r i ng ,   v o l .   2,   no .   8 ,   pp .   2 231 2307 ,   J a 2013 .     [ 20]     L a m ,   e t   al . ,   A ut o m a t i c   T e xt   C a t e g o r i z a t i o a nd  I t s   A ppl i c a t i o t o   T e xt   R e t r i e v a l   I E E E   T r ans ac t i o K now l e dge   and  D at a   E n gi ne e r i n g,   v o l .   11( 6) ,   pp.   8 65 8 79,   1 999 .   [ 21]     A .   K ha d j e h   N a s s i r t o us s i ,   e t   a l . ,   T e x t   m i n i ng   o f   ne w s - he a dl i n e s   f o r   F O R E X   m a r ke t   p r e di c t i o n:   A   M ul t i - l a y e r   D i m e ns i o R e duc t i o n   A l g o r i t hm   w i t h   s e m a n t i c s   a n s e n t i m e nt ,   E x pe r t   S y s t e m   A pp l i c a t i on  [ I nt e r ne t ] ,   v o l .   4 2( 1 ) ,   pp.   30 6 32 4,   20 15.   [ 22]     R .   A g r a w a l ,   e t   a l . ,   " M i ni ng   a s s o c i a t i o r ul e s   be t w e e n   s e t s   o f   i t e m s   i l a r g e   da t a b a s e s , "   A C M   S I G M O D   I nt e r n at i on al   C on f e r e nc e   on   M anage m e nt   of   D a t a ,   v o l .   22 ( 2) ,   pp .   2 07 - 216,   1 993 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   16 ,   N o .   2 N o v e m be r   2 019   :     10 50   -   10 58   1058   [ 23]     S .   M a hm o o d,   e t   al . ,   N e g a t i v e   a nd  P o s i t i v e   A s s o c i a t i o R ul e s   M i ni ng   f r o m   T e xt   U s i ng   F r e q ue n t   a n I nf r e que nt   I t e m s e t s ,   T he   S c i e nt i f i c   W or l d   J our nal ,   v o l .   2 014 ,   11  pa g e s ,   2014 .   ht t ps : / / do i . o r g / 10. 1155 / 20 14/ 9737 50 .   [ 24]     Z ho ng ,   L i   a nd   W u,   E f f e c t i v e   p a t t e r di s c o v e r y   f o r   t e x t   m i ni ng ,   I E E E   T r an s ac t i ons   on   K now l e dge   and   D at E ngi ne e r i n g ,   v o l .   24( 1) ,   pp.   3 0 44 ,   201 2.   [ 25]     C .   P .   C he n ,   a nd  C .   Y .   Z ha ng ,   D a t a - i nt e ns i v e   a pp l i c a t i o ns ,   c ha l l e ng e s ,   t e c hn i qu e s   a n t e c hno l o g i e s :   A   s ur v e y   o n   bi g   da t a ,   I nf o r m a t i o Sc i -   E nc e s ,   v o l .   27 5,   pp .   314 347 ,   201 4.   [ 26]     S .   A nw a r   a nd  S .   S un,   F i na nc i a l   d e v e l o pm e nt ,   f o r e i g i nv e s t m e nt   a nd  e c o no m i c   g r o w t i M a l a y s i a ,   J our n al   o f   A s i a E c onom i c s ,   v o l .   22( 4) ,   pp.   3 35 3 42,   2 011 .   ht t ps : / / do i . o r g / 10 . 1016 / j . a s i e c o . 2011. 04 . 001   [ 27]   M .   F i k r i   a n R .   S a r no ,   A   c o m pa r a t i v e   s t udy   of   s e nt i m e n t   a n a l y s i s   u s i ng   S V M   a nd  S e n t i W o r dN e t ,   I ndone s i an   J our nal   o f   E l e c t r i c a l   E ng i ne e r i ng  a nd  C om pu t e r   Sc i e nc e ,   vo l .   13( 3) ,   pp .   902 - 909 ,   20 19.   ht t p: / / do i . o r g / 10 . 11 591 / i j e e c s . v 13. i 3 . pp 1087 - 10 94   [ 28]   E .   A .   A bdul l a h ,   e t   al . ,   M o de l l i ng   v o l a t i l i t y   of   K ua l a   L um pur   c om po s i t e   i nd e ( K L C I )   us i ng   S V   a nd   g a r c m o de l s ,   I ndone s i an  J ou r na l   o f   E l e c t r i c a l   E ng i ne e r i n and  C om p ut e r   Sc i e nc e ,   v o l .   13 ( 3 ) ,   p p.   1087 - 10 94 ,   201 9.   ht t p: / / do i . o r g / 10 . 11 591 / i j e e c s . v 13. i 3 . pp 1087 - 10 94     Evaluation Warning : The document was created with Spire.PDF for Python.