I n te r n ati o n al   Jo u r n al   o El e c tr i c a l   an d   C o m p u te r   En gi n e e r i n g   (I JEC E )   V o l .   10 ,   N o .   2 A p r i l   2020 ,   p p.   2 102 ~ 210 9   IS S N :   2088 - 8708 D O I :   10. 1 1591 / i j e c e . v 10 i 2 . pp2 102 - 210 9             2102       Jou r n al   h o m e pa ge ht t p: / / i j e c e . i ae s c or e . c om / i nd e x . php / IJ E CE   Im p r o v i n g   t h e   r o l e   o f   l a n g u a g e   m o d e l   i n   st a t i st i c a l   m a c h i n e   t r a n sl a t i o n   ( In d o n e s i a n - J a v a n e se )       H e r r y   S u jai n i   D e pa r t e m e nt   o f   I nf o r m a t i c s ,   T a nj u ng pur a   U n i v e r s i t y ,   I do ne s i a       A r ti c l e   I n fo     A B S TR A C T     Ar t i c l e   h i s t or y :   R e c e i v e d   M a y   4 ,   2 019   R e v i s e O c t   3 0,   2 019   A c c e pt e N o v   15 ,   2019       T he   s t a t i s t i c a l   m a c hi n e   t r a ns l a t i o ( S M T )   i s   w i de l y   us e by   r e s e a r c he r s   a n pr a c t i t i o ne r s   i r e c e n t   y e a r s S M T   w o r ks   w i t h   qua l i t y   t ha t   i s   de t e r m i ne by   s e v e r a l   i m po r t a nt   f a c t o r s ,   t w o   o f   w hi c a r e   l a ng ua g e   a nd  t r a ns l a t i o m o de l .   R e s e a r c o i m p r o v i ng   t he   t r a n s l a t i o m o de l   ha s   b e e do ne   qu i t e   a   l o t ,   bu t   t he   p r o bl e m   o f   o pt i m i z i ng   t he   l a ng ua g e   m o de l   f o r   us e   o m a c h i ne   t r a n s l a t o r s   ha s   no t   r e c e i v e m uc a t t e n t i o n.   O t r a n s l a t o r   m a c hi ne s ,   l a ng ua g e   m o de l s   us ua l l y   us e   t r i g r a m   m o de l s   a s   s t a nda r d .   I t h i s   pa pe r ,   w e   c o nduc t e e xpe r i m e nt s   w i t f o ur   s t r a t e g i e s   t o   a na l y z e   t he   r o l e   o f   t he   l a ng ua g e   m o de l   us e d   i n   t he   I ndo ne s i a n - J a v a ne s e   t r a n s l a t i o m a c hi n e   a n s ho w   i m pr o v e m e nt   c om pa r e t o   t he   b a s e l i ne   s y s t e m   w i t t he   s t a n da r l a ng ua g e   m o de l .   T he   r e s u l t s   o f   t hi s   r e s e a r c h   i nd i c a t e   t ha t   t he   u s e   o f   3 - g r a m   l a ng ua g e   m o de l s   i s   hi g h l y   r e c o m m e nde i S M T .   Ke y w or d s :   In do n e s i a n - J a v a n e s e   l a n gu a ge   m o de l     S t a t i s t i c a l   m a c h i n e   t ra n s l a t i o n     C opy r i gh t   ©   2020   I n s t i t ut e   o f   A dv anc e E ng i ne e r i ng   and   S c i e nc e   A l l   r i gh t s   r e s e r v e d .   Cor r e s pon di n g   Au t h or :   H e rr y   S uj a i n i   D e pa rt m e n t   o f   In f o r m a t i c s ,   T a n j u n gp u r a   U n i v e r s i t y ,   J l .   P r o f . D r. H .   H a da ri   N a w a w i P o n t i a na k   78124 I n do n e s i a .   E m a i l :   hs @ u nt t a n. a c . i d       1.   I N TR O D U C TI O N     S t a t i s t i c a l   m a c hi n e   t ra n s l a t i o n   (S M T o r   k n o w n   a s   s t a t i s t i c a l - b a s e m a c hi n e   t r a n s l a t i o n ,   i s   a   pa ra di g m   o f   m a c h i n e   t ra n s l a t i o n   w h e r e   t h e   i nt e rp r e t a t i o n   i s   c r e a t e de pe n de n t   on   s t a t i s t i c a l   m o de l   w h i c pa ra m e t e r s   c o m e   f r o m   b i l i ngua l   c o r pus   (pa ra l l e l   c o r p us a na l y s i s .   Co r pus   i s   a   c o l l e c t i o n   o s a m pl e   o w r i t t e n   o r   o r a l   t e xt   i t h e   f o r m   o f   da t a   t ha t   c a b e   r e a d   b y   us i n a   s e t   o f   m a c h i n e s   a nd  c a b e   n o t e i n   t h e   fo r m   o v a ri o us   l i n g u i s t i c   i n f o r m a t i o n   f o r m s   [1].   A   q ua l i t y   c o r pus   g r e a t l y   i n f l ue n c e s   t h e   o ut c o m e   of   a   s t a t i s t i c a l   o r   n e u ra l - b a s e t ra n s l a t o r   m a c h i n e .   M a n y   pr e v i o us   r e s e a r c h e r s   ha v e   e xpe r i m e nt e w i t i m p r o v i n g   t h e   qu a l i t y   of   t h e   c o r pus   [ 2 - 6 ].   T h e   b e s t   h y po t h e s i s   f o r   e a c i nput   o f   s e n t e n c e   f   i s   t h e   go a l   o b i l i n g ua l   c o r pus   a na l y s i s   by :       (1)       (   ̅ |   ̅ )   i s   a   t ra n s l a t i o m o de l   t ha t   e xp r e s s e s   t h e   p r o b a b i l i t y   o f   t h e   r e l a t i o n s h i p   b e t w e e t h e   s o ur c e   l a n g ua ge   a n t h e   t a r ge t   l a ngua ge .   L a n gu a ge   m o de l s   t h a t   de t e rm i n e   t h e   pr o b a b i l i t y   of   s t r i n gs   i t h e   t a r ge t   l a n gu a ge   a r e   de n o t e by         ̅   n o rm a l l y   us e s   t h e   s t a nda r d   w o r o f   t ri g ra m   m o d e l   f r o m :       (2)     w h i c h     ̅    =   e , . . . e l I t h e   t r i g r a m   m o de l   f o r m ,   e a c w o r i s   p r e di c t e b a s e o n   t h e   p r e v i o us   t w o - w o r hi s t o r y .     Evaluation Warning : The document was created with Spire.PDF for Python.
Int   J   E l e c   &   Co m E n g     IS S N :   2088 - 8708       Im pr ov i ng   t he   r ol e   o f   l angu age   m od e l   i n   s t a t i s t i c a l   m ac h i ne   t r ans l at i on    ( H e r r y   Su j ai ni )   2103   A l t h o ug h   m a c h i n e   t ra n s l a t o m o de l s   h a v e   c o n t i n ue t o   de ve l o i n   r e c e n t   y e a r s ,   s t a t i s t i c a l   m a c h i n e   t r a n s l a t i o (S M T c o nt i nue s   t o   gr o w   ra pi d l y ,   w i t h   m o r e   a n m o r e   p r o po s e n e w   t ra n s l a t i o n   m o de l s   b e i n pra c t i c e i n   v a ri o us   l a n gu a g es   [7 - 9] M o s t   o f   t h e   w o r i n   SMT   c o n c e n t r a t e s   o n   de v e l o pi n b e t t e r   t ra n s l a t i o m o de l s .   L i t t l e   e xe rt i o n   ha s   b e e n   m a de   t o   m a x i m i z e   t h e   r o l e   of   l a n gu a ge   m o de l i n g   f o r   m a c h i n e   t r a n s l a t i o n.   T h e   pu r po s e   of   t h i s   r e s e a r c h   w a s   t o   i m p r o v e   t h e   r o l e   of   l a n gu a ge   m o de l i ng ,   w hi c h   i n   t u rn  w i l l   i m p r o v e   t h e   a c c u r a c y   o f   t h e   t ra n s l a t i o r e s ul t s   o f   a S MT .   F i g u r e   s h o w s   t h e   ge n e r a l   s t a t i s t i c a l   l a n gu a g e   m a c h i n e   a r c hi t e c t u r e .   T h e   de c o de r   f un c t i o n s   a s   a   t ra n s l a t o m a c hi n e   w h o s e   j ob   i t   i s   t o   t ra n s l a t e   s e nt e n c e s   f r o m   o n e   l a ngua ge   t o   a n o t h e r .   T h e   r e s ul t s   o f   t h e   w o r o f   t h e   de c o de r   c a n   d i f fe r   f r o m   o n e   a n o t h e r.   T h e s e   re s ul t s   a r e   i n f l ue n c e by   t h e   m o de l s   us e d,   na m e l y   t h e   t r a n s l a t i o m o de l   (T M a nd  t h e   l a n g ua ge   m o de l   (L M a s   t h e   m a i m o de l ,   a n t h e   f e a t u r e   m o de l   (F M b e s i de s .   T M   i s   ge n e r a t e t hr o ug h   t h e   t r a i ni n p r o c e s s   of   a   pa r a l l e l   c o r pus ,   w hi l e   t h e   t ra i ni n p r o c e s s   of   a   m o n o l i ngua l   c o r pus   f r o m   t h e   t a r ge t   l a n gu a ge   ge n e r a t e LM .   F M   i s   us ua l l y   us e a s   a n   e f fo r t   t o   i m p r o v e   t h e   a c c ur a c y   of   m a c h i n e   t ra n s l a t o r s   by   a ddi n l i ngui s t i c   fe a t u r e s   s uc h   a s   P a r t   o f   S p e e c h   (P o S [10 - 12].   T h e   ge n e ra t e P o S   c a n   b e   d o n e   w i t h   a   s upe r v i s e o r   un s upe rv i s e a ppr o a c h   [13] .   T h e   m a i n   s y s t e m   f un c t i o n s   a s   a   t ra n s l a t o m a c h i n e   t o   p r o duc e   t h e   t a r ge t   l a n gu a ge   f r o m   s e n t e n c e   i n pu t   i t h e   s o ur c e   l a ngua ge   c a l l e d   t h e   de c o de r A s   s h o w n   i n   F i gu r e   1,   t h e   pa ra l l e l   c o r p us   i s   t h e   p r i m a r y   so ur c e   fo r   b ui l di ng  a n   S M T ,   w hi l e   t h e   m o n o l i ngua l   c o r pus   c a n   us e   s e nt e n c e s   t ha t   a r e   o n   t h e   t a r ge t   s i de   o f   t h e   pa ra l l e l   c o r pus .   T h e   s i z e   o f   t h e   m o n o l i n gu a l   c o r pus   c a n   b e   e n l a r ge by   a ddi n o t h e r   s e nt e n c e s   i n   t h e   s a m e   l a n gu a ge ,   e v e n   t h o ug h   i t   do e s   n o t   ha v e   a   pa i i n   t h e   p a r a l l e l   c o r pus .           F i gu r e   1 .   SMT   a r c hi t e c t u r e       S e ve r a l   s t udi e s   h a v e   b e e n   c o n duc t e t o   i m p r o v e   t h e   r o l e   of  l i n g ui s t i c   m o de l s   i n   v a r i o us   l a n gu a ge s   a n m e t h o ds .   Y e t   a l [14]   e xpl a i n ed   l a n gu a ge   m o de l s   t ha t   t r i gge r e n e w   t o pi c s   by   c a l c ul a t i n g   c o n t e xt s   a n t o pi c s   a n e s t i m a t e   n - g ra m   p r o b a b i l i t i e s   u n de r   a   gi v e n   t o pi c   a nd  a dj us t   l a ngua ge   m o de l   s c o r e s   b a s e o n   t h e   di s t ri b ut i o o f   di f fe r e n t   t o pi c s   o n l i n e .   T h e   r e s ul t i ng   t ra n s l a t i o n   p r o v e t o   i m p r o v e   t h e   h y po t h e s i s   c o n s i de r e b e s t   by   t h e   f i r s t   s t a ge   o f   t h e   s y s t e m .   Z ha n e t   al .   [15]  ha ve   r e s e a r c h e d   b y   i m pr o v i n t h e   c o di n o a ut o m a t e v e t e r i na r y   di a gn o s e s   t hr o ug h   l a r ge - s c a l e   l a ngua ge   m o de l i n g .   T h e   a l go ri t hm   p r o po s e d   by   t h e m   a dd r e s s e s   i m po r t a n t   c h a l l e n ge s   i n   v e t e r i n a r y   m e di c i n e   a n t r a i n i n i n   u n s upe r v i s e l e a rni n f o r   c l i n i c a l   l a n gu a ge   de v e l o pm e n t .   M o h a g h e g h   [16]  r e po r t e i m p r o v e d   a c c ur a c y   by   e nh a n c i ng  t h e   r o l e   of  t h e   l a n gu a ge   m o de l   i n   t h e   E n g l i s h - P e r s i a n   t r a n s l a t o r   m a c hi n e .   M o n z   [ 17]  r e po rt e d   i m p r o v e a c c ur a c y   by   e n ha n c i n g   t h e   r o l e   o f   t h e   l a n gu a ge   m o de l   i A ra b i c -   a n d   C h i n e s e - to - E n gl i s h   t r a n s l a t o r   m a c hi n e s .   B a n e r j e e   e t   al .   [18]   r e po rt e t h e i r   r e s e a r c h   t o   i m p r o v e   t h e   l a ngua ge   m o de l   by   l e a rn i ng  f r o m   s pe e c h   r e c o gn i t i o n   m i s t a ke s   i n   a   l i s t e n i ng  r e a di n t ut o r S uj a i ni   e t   a l .   [ 19 r e po rt e t h e   r e s u l t s   o t h e i r   r e s e a r c h   t o   i m p r o v e   t h e   a c c ur a c y   o m a c h i n e   t ra n s l a t o r s   by   us i n t h e   p a rt   o f   s pe e c h   f e a t ur e s .   T h e   r e s ul t s   o f   t hi s   s t udy   c a n   i n c r e a s e   a c c ura c y   b 6. 45%   w h e n   c o m pa r e t o   m a c h i n e   t r a n s l a t o r s   w i t h o ut   us i ng  pa rt   o f   s pe e c h .   J a y a   a nd  G upt a   [ 20 p r o po s e d   a   b e t t e r   qua l i t y   S M T   t h a t   w a s   i m p r o v e by   p o i n t s   i n   t h e   E n g l i s h   t o   H i n di   s y s t e m   a n 2. 93  po i n t s   i n   t h e   H i n - E ng  s y s t e m .   T h e s e   r e s ul t s   w e r e   o b t a i n e a s   t h e y   e xpl o r e t h e   c o r pus   a ugm e n t a t i o n   a pp r o a c h   f o r   t h e   E ngl i s a nd  H i n d i   T w o - W a y   S M T .   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2088 - 8708   Int   J   E l e c   &   Co m E n g ,   V o l .   10 ,   N o .   2 A p ri l   2020   :     2 102   -   210 9   2104   T h e   l a n gu a ge   m o de l   i s   de s i gn e t o   ob t a i n   t h e   o c c urr e n c e   pr o b a b i l i t y   of  w o r ds   (o r   t o ke n ).     If   W 1   =   ( w 1 , . . . ,   w L s h ow s   t h e   s t ri n t o ke n   o L   o n   f i xe d   vo c a b ul a r y .   T h e   n - g ra m   l a n gu a ge   m o de l   pr o v i de s   pr o b a b i l i t y   t o           a c c o r di n g   t o :       (3)   w h e r e   t h e   a pp r o xi m a t i o n   r e f l e c t s   M a r ko v ’s   a s s um pt i o n   t ha t   o nl y   n - t o ke n   t ha t   t h e   n e w e s t   r e l e v a n t   i pr e di c t i n g   t h e   n e x t   w o r d.   F o r   e a c h   w   s u b s t r i ng,   f o r   e xa m pl e ,   f (w )   s h ow s   t h e   fr e qu e n c y   of   s ub s t r i n o c c ur r e n c e   i n   t h e   s pe c i f i e t a r ge t   l a ngua ge   s e que n c e ,   us ua l l y   v e r y   l o n g ,   w h i c h   c a l l e t ra i ni n g   da t a .   T h e   m a xi m um - l i ke l i h o o p r o b a b i l i t y   fo r   n - g ra m   i s   gi v e by   i t s   r e l a t i v e   f r e que n c y .       ( 4 )   In   p ri n c i p l e ,   t h e   p r e di c t i v e   a c c ur a c y   of   t h e   l a n gua ge   m o de l   c a n   b e   e n ha n c e by   i n c r e a s i ng  t h e   o r de r   o f   n - g ra m s   [21] H ow e v e r ,   unde r   c e rt a i n   c o n di t i o n s ,   t hi s   c a r e duc e   t h e   a c c u r a c y   of   t r a n s l a t i o n   w h e n   us i n g   c o m pl e da t a ,   e s pe c i a l l y   i f   t h e r e   a r e   m a n y   e r r o r s   i n   c o r pus   da t a .   T h i s   s t udy   di s c us s e s   t h e   b e s t   a c c ur a c y   t h a t   c a b e   pr o duc e by   m a c hi n e   t ra n s l a t o r s   b y   c o n duc t i n e xpe r i m e n t s   o n   t h e   us e   o f   t h e   o rde o f   n - g r a m s   o n   L M .       2.   R ES EA R C H   M ET H O D     2. 1 .    Ex p e r i m e n ta l   s ta ge s   T h e   t r a i n i n d a t a   i s   a   p a r a l l e l   c o r pus   o f   In do n e s i a     K r o m o   J a v a n e s e   l a n gu a ge   t a ke n   f r o m   f o l kl o r e   m a n u a l l y   t r a n s l a t e a s   m a n y   a s   5108  s e nt e n c e s .   I n   t h e   p r o c e s s   of   t r a i n i ng,   4500   pa i r s   o f   s e n t e n c e s   a n d   608   pa i r s   o f   s e n t e n c e s   w e r e   us e fo r   t h e   t e s t i ng  p r o c e s s .   T h e   e xpe r i m e n t a l   s t a ge s   c o n duc t e c a n   b e   s e e n   i n     F i g u r e   2.   Co rpus   p r e p a r a t i o (p r e p r o c e s s i n g)  w a s   c o n du c t e by   pe r fo r m i ng  t h e   p r o c e s s   of   c l e a n i ng,   t o ke n i z i n g ,   a nd  l o w e r c a s i ng   t o   t h e   pa ra l l e l   c o r pus   t ha t   h a s   b e e n   p r e pa r e d.   T h e   l a n gu a ge   m o de l   us e i n   t h e   b a s e l i n e   s y s t e m   w a s   t h e   t r i g ra m   m o de l   of   J a v a n e s e   l a n g ua ge   t r a i n e by   us i n t o o l ki t   S R IL M   [22],   w h i l e   pa r a l l e l   c o r pus   t ha t   w a s   r e a dy   t o   us e   w a s   t h e t ra i n e t o   ob t a i n   w o r a l i g nm e n t s ,   p hra s e   t a b l e ,   l a n gu a ge   m o de l ,   a n m o de l   c o m b i na t i o n   w e i gh t s .   T h e   b a s e l i n e   us e i n   t h i s   r e s e a r c h   w a s   t ra i n e by   us i n s t a nda rd  t o o l s ,   n a m e l y   G IZ A + +   [23],   t o   t ra i n   t h e   w o r a l i g nm e nt   a n d   M o s e s   fo r   p hr a s e - b a s e c o di n g.   M o s e s   i s   a   t o o l   t h a t   i s   a n   i m pl e m e n t a t i o n   o f   S t a t i s t i c   M a c h i n e   T ra n s l a t i o n .   M o s e s   i s   us e t o   t ra i ni n g   a   s t a t i s t i c a l   m o de l   of  t r a n s l a t e t e x t   f r o m   t h e   s o ur c e   l a n gu a ge   t o   t h e   t a r ge t   l a n gu a ge .   I n   t ra n s l a t i n t h e   l a n gu a ge ,   M o s e s   r e qui r e s   a   c o r pus   i n   t w o   l a n gu a ge s ,   s o u r c e   l a n gu a ge   a nd  t a r ge t   l a n gu a ge .   M o s e s   i s   r e l e a s e u n de r   t h e   l i c e n s e   pf   L G P L   (L e s s e r   G e n e ra l   P ub l i c   L i c e n s e a n i s   a v a i l a b l e   a s   s o urc e   c o de   a n b i n a r y   f o r   W i n do w s   a n L i n ux .   It s   de v e l o pm e n t   i s   s uppo rt e by   t h e   E u r o M a t ri p r o j e c t ,   w i t h   t h e   f un di ng  by   E ur o pe a n   Co m m i s s i o n   [ 24].   T h e   d e c o de r ,   a s   a   t ra n s l a t o r   m a c hi n e ,   w a s   s e t   fo l l ow i n g   t h e   e xpe r i m e n t a l   s t ra t e gy   c o n duc t e d,   w h i c h   w a s   b y   c h a ngi n g   t h e   l a n gu a ge   m o de l   v a r i a b l e s   us e d.   F o r   e a c h   s e t t i ng,   t e s t i n g   w a s   pe r f o r m e by   i n p ut t i n g   608   s e n t e n c e s   t h a t   h a b e e n   p r e pa r e p r e v i o us l y .   T h e   t e s t s   w e r e   pe r f o r m e us i n t h e   B L E U   a ut o m a t i c   e v a l ua t i o n   m e t h o [ 25 ] .           F i gu r e   2 .   E xp e r i m e n t a l   s t a ge s   Evaluation Warning : The document was created with Spire.PDF for Python.
Int   J   E l e c   &   Co m E n g     IS S N :   2088 - 8708       Im pr ov i ng   t he   r ol e   o f   l angu age   m od e l   i n   s t a t i s t i c a l   m ac h i ne   t r ans l at i on    ( H e r r y   Su j ai ni )   2105   2. 2 .     Ex p e r i m e n t   s tr at e gy   T o   s e e   t h e   r o l e   of  t h e   l a ngua ge   m o de l   us e i n   I n do n e s i a n - J a v a   SMT ,   i n   t hi s   e xpe r i m e nt ,   f o ur   s t ra t e gi e s   w e r e   pe r f o r m e d .     a.   T h e   l a n gu a ge   m o de l   w a s   t r a i n e f r o m   4500   s e n t e n c e s   o f   t h e   pa r a l l e l   c o r p us   t a r ge t ;   i o t h e r   w o r ds ,   t h e   t e s t   r e f e r e n c e   s e n t e n c e   w a s   n o t   i n c l ude i n   t h e   t ra i ni n g .   F u rt he r m o r e ,   t hi s   f i r s t   s t r a t e gy   w a s   t e s t e fo r   3   t o   7 - g r a m   m o de l s .   b.   T h e   l a n g ua ge   m o de l   w a s   t ra i n e f r o m   4500  s e n t e n c e s   of   pa r a l l e l   c o r pus   t a r ge t   p l us   608  r e f e r e n c e   s e n t e n c e s ;   i n   o t h e r   w o r ds ,   t h e   t e s t   r e f e r e n c e   s e n t e n c e   w a s   i nc l ude i n   t h e   t ra i ni n g .   F urt h e r m o r e ,   t h i s   f i r s t   s t ra t e gy   w a s   t e s t e fo r   3   t o   7 - g ra m   m o de l s .   c.   T h e   l a n g ua ge   m o de l   w a s   t r a i n e f r o m   608  r e f e r e n c e   s e n t e n c e s   a n 3892  s e n t e n c e s   of  pa ra l l e l   c o r pus   t a r ge t ,   t h e a d de w i t h   10 s e nt e n c e s   of   t h e   r e m a i ni n pa r a l l e l   c o r p us   t a r ge t s   f o r   e a c h   e xpe r i m e nt .   S i e xpe r i m e nt s   w e r e   a dde d ;   t h e r e fo r e ,   t h e   c o r pus   us e i n   e a c h   e xpe ri m e n t   w a s   4600,   470 0,   4800 ,   4900 ,   5000,   a nd  5 100   s e n t e n c e s .   d.   T h e   l a n gu a ge   m o de l   w a s   t r a i n e f r o m   4500  t a r ge t   s e nt e n c e s ,   t h e n   a d de 100  r e f e r e n c e   s e n t e n c e s   fo r   e a c h   e xpe r i m e nt .   S i x   e xpe ri m e n t s   w e r e   a dde d ;   t h e r e f o r e ,   t h e   c o r p us   us e i e a c e xpe ri m e n t   w a s   4600 ,   4700 ,   4800,   490 0,   5000 ,   a n d   510 s e n t e n c e s .     2. 3 .     R e s u l an d   d i s c u s s i o n   T h e   t r a i n i ng  d a t a   i s   i t h e   f o r m   o f   t h e   I n do n e s i a n - J a v a   p a r a l l e l   c o r pus   a s   s h o w n   i n   F i g u r e   3 .   T h e   l e f t   c o l um n   i s   a   c o l l e c t i o n   o f   s e n t e n c e s   i n   t h e   I n do n e s i a n   l a ngua ge ,   w h i l e   t h e   r i g ht   c o l um n   i s   a   s e n t e n c e   c l us t e i J a v a n e s e ,   w h e r e   e a c h   l i n e   i s   a   t r a n s l a t i o o f   t h e   c o r r e s po n d i ng  s e nt e n c e   E xa m pl e s   o f   s e n t e n c e s   t ha t   ha v e   be e n   pa s s e d   t h e   pr o c e s s   of   c l e a n i n g ,   t o ke ni z i n g ,   a n l o w e r c a s i n g   a r e :   " B ar pu l ang ,   K an g?   Mana   A bah?"   T a ny a   N y i   It e ung   R e s ul t   :   "   l agi   m ul i h   ,   k a ng?   e nd i   abah?   "   pi t a k one   n y i   i t e un g   T h e   l a n gu a ge   m o de l   w a s   ge n e r a t e f r o m   t h e   t ra i ni n g   p r o c e s s   c o n duc t e o n   t h e   t a rge t   l a n gu a ge   o t h e   pa r a l l e l   c o r pus ,   i . e . ,   J a v a   l a n g ua ge .   A s   a   b a s e l i n e ,   a   t r i g ra m   (3 - g r a m t ra i ni n w a s   c o n duc t e d,   t h e t r a i ni n w a s   a l s o   c o n duc t e t o   pr o duc e   a   c o m pa r i s o n   m a c hi n e   w i t h   4 - g r a m ,   5 - g r a m ,   6 - g ra m ,   a nd  7 - g r a m o de l s .   T h e   e xa m pl e   of   t h e   3 - gra m   l a n gu a ge   m o de l   c a be   fo un d   i n   F i g u r e   4 ,   w h i l e   t h e   e xa m pl e   o f   t h e   7 - g r a m   l a ng ua ge   m o de l   c a n   b e   f o un d   i n   F i g u r e   5 F o r   i n s t a n c e ,   F i g u r e   4 .   s a y s   t h a t   t h e   p r o b a b i l i t y   of   t h e   f i r s t   w o r i n   a   s e n t e n c e   be i n " d i n a   e s uke "   i s   10 - 0. 3 746 373   =   0. 422,   t h e   pr o b a b i l i t y   g a ve   t h e   pa i r   w o r " s a w a t a r a   d i n a "   t h a t   t h e   n e xt   t hi n t h a t   h a ppe n s   i s   t h a t   t h e   s e nt e n c e   e n ds   10 - 0 . 736 3669   =   0. 1 83,   a n s o   fo r t h .   F r o m   t h e   t r a i n i ng  r e s ul t s ,   t h e   n u m b e r   o f   t o k e n   pa i r s   w i t h   t h e i r   p r o b a b i l i t i e s   f o r   e a c h   n - g r a m   a r e :   1 - g r a m = 5 598,   2 - g r a m = 2 6350 ,   3 - g r a m = 3924 ,   4 - g r a m = 1768 ,   5 - g r a m = 6 46,   6 - g ra m = 18 a n d   7 - g ra m = 53 .         L a h i r n y a   It o k .   L a i re   It o k .   S e t e l a h   N y i   It e u n g   h a m i l ,   o ra n g   s e ru m a h   s e m u a   d i r e p o t k a n .   S a w i s e   N y i   It e u n g   m b o b o t ,   w o n g   s a o m a h   k a b e h   d i re p o t a k e .   M a k l u m   n a m a n y a   b a ru   h a m i l   m u d a ,   a d a - a d a   s a j a   y a n g   d i m i n t a   d a n   y a n g   a n e h - a n e h .   M a k l u m   j e n e n g e   l a g i   n g a n d h e g   e n o m ,   a n a - a n a   w a e   s i n g   d i j a l u k   l a n   s i n g   a n e h - a n e h .   H a l   i n i   t e n t u   s a j a   m e m b u a t   b i n g u n g   o ra n g   s e ru m a h .   Ba b   i k i   m e s t h i   w a e   g a w e   b i n g u n g e   w o n g   s a o m a h .   S i   K a b a y a n   b i n g u n g   s e k a l i   m e n g h a d a p i   s i k a p   d a n   p e r m i n t a a n   m a i n a n   S i   K a b a y a n   b i n g u n g   b a n g e t   n g a d h e p i   s i k e p   l a n   p a n j a l u k e   b o j o n e .   S e d a n g   A b a h   d a n   A m b u   y a n g   s e s u d a h   w a n i t a   p e n g a l a m a n   b i s a   m e n g e rt i   h a l   i t u .   D e n e   A b a h   l a n   A m b u   s i n g   w i s   d u w e   p e n g a l a m a n   b i s a   n g e r t e n i   b a b   i k u .   Ba g i   S i   K a b a y a n ,   s e m u a   i t u   m e m b u a t   d i ri n y a   s e r b a   r e p o t .   T u m ra p e   S i   K a b a y a n ,   k a b e h   m a u   n d a d e k a k e   d h e w e k e   s a r w a   re p o t .   P e r m i n t a a n n y a   N y i   It e u n g   h a ru s   c e p a t   d i t u ru t i   d e n g a n   a l a s a n   m e w u j u d k a n   b a w a a n   j a b a n g   b a y i   y a n g   a d a   d i   d a l a m   p e ru t n y a .   P a n j a l u k e   N y i   It e u n g   k u d u   e n g g a l   d i t i n d a k a k e   k a n t h i   a l e s a n   m u j u d a k e   g a w a n   j a b a n g   b a y i   s i n g   a n a   i n g   n j e r o   w e t e n g e .   J i k a   s u d a h   b e g i t u   S i   K a b a y a n   t i d a k   b i s a   m e n g e l a k .   M a n a w a   w i s   m a n g k o n o   S i   K a b a y a n   o ra   b i s a   s u w a l a .   S e p e rt i   d i   h a ri   i n i ,   N y i   I t e u n g   m e n g a t a k a n   k e i n g i n a n n y a   k e p a d a   K a b a y a n   y a n g   b a ru   p u l a n g   d a ri   k e b u n ,   s e t e l a h   m e m b a n t u   A b a h   m e n a n a m   u b i .   K a y a   i n g   d i n a   i k i ,   N y i   It e u n g   n g a n d h a k a k e   p e p i n g i n a n e   m a ra n g   K a b a y a n   s i n g   l a g i   m u l i h   s a k a   k e b o n ,   s a w i s e   m b i y a n t u   A b a h   n a n d u p o h u n g .   " Ba ru   p u l a n g ,   K a n g ?   M a n a   A b a h ? "   T a n y a   N y i   It e u n g .   " L a g i   m u l i h ,   K a n g ?   E n d i   A b a h ? "   P i t a k o n e   N y i   I t e u n g .   " A l h a m d u l i l l a h ,   b a ru   s a j a   s e l e s a i   N y i . "   " A l h a m d u l i l l a h ,   l a g i   w a e   ra m p u n g   N y i . "   " A b a h   b a ru   b a s u h   d i   j a m b a n . "   " A b a h   l a g i   w i s u h   i n g   j a m b a n . "   J a w a b   S i   K a b a y a n   d e n g a n   d u d u k   d i   l i n c a k .   W a n g s u l a n e   S i   K a b a y a n   k a ro   l u n g g u h   i n g   l i n c a k .   " O ,   s y u k u rl a h .   K a k a n g   a p a   m a s i h   c a p e k ? "   " O ,   s y u k u rl a h .   K a k a n g   a p a   i s i h   k e s e l ? "   T a n y a   N y i   It e u n g   d e n g a n   m e m p e r h a t i k a n   d i ri   K a b a y a n .   P i t a k o n e   N y i   I t e u n g   k a ro   n g a w a s a k e   a w a k e   K a b a y a n .   " L u m a y a n ,   N y i ,   o ra n g   n a m a n y a   b e k e rj a   d i   k e b u n . "   " L u m a y a n ,   N y i ,   w o n g   j e n e n g e   n y a m b u t   g a w e   i n g   k e b o n . "     F i gu r e   3 .   I ndo n e s i a n - J a v a   p a r a l l e l   c o r pus     Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2088 - 8708   Int   J   E l e c   &   Co m E n g ,   V o l .   10 ,   N o .   2 A p ri l   2020   :     2 102   -   210 9   2106       F i gu r e   4 .   3 - g r a m   l a ngua ge   m o de l           F i gu r e   5 .   7 - g r a m   l a ngua ge   m o de l       T h e   f i r s t   e xpe r i m e nt a l   s t ra t e gy   w a s   us i n 4500  s e n t e n c e s   pa r a l l e l   c o r pus ,   a n 4 500  s e nt e n c e s   m o n o l i n gu a l   c o r p us   o f ,   t h e   r e s ul t s   o f   t h e   e xpe r i m e n t s   p r o du c e c a n   b e   f o un d   i n   T a b l e   1 M a c h i n e   1 . m e a n s   us i n s t ra t e gy   w i t h   3 - g r a m ;   m a c hi n e   1. m e a n s   us i ng  s t ra t e g y   w i t h   4 - g r a m ,   a n s o   o n .   T h e   e xpe ri m e n t ’s   r e s ul t s   s h o w   t h a t   w i t h   t h e   a ddi t i o o f   n - g ra m s   i t h e   m o no l i n g ua l   c o r pus   t a ke n   f r o m   t h e   pa ra l l e l   c o r pus ,   i t   do e s   n o t   s h o w   a   s i gn i f i c a n t   i n c r e a s e   i n   a c c ur a c y   (r e pr e s e nt e by   BL E U   v a l ue ).   T h e   hi g h e s t   v a l ue   o n   t h e     4 - g r a m   t o   7 - g ra m   m o de l   c a o nl y   i n c r e a s e   t h e   a c c ura c y   of   ((32. 46 - 32. 4 2)  / 32 . 42)   *   100%   =   0 . 12% .   T h e   s e c o n e xpe ri m e n t a l   s t ra t e g y   w a s   us i n 4500  s e n t e n c e s   pa ra l l e l   c o r pus ,   a n d   51 08  s e nt e n c e s   m o n o l i n gu a l   c o r pus ,   t h e   r e s ul t s   o f   t h e   e xpe r i m e n t s   p r o duc e c a n   b e   fo un i n   T a b l e   2 M a c h i n e   2 . m e a n s   us i n s t ra t e gy   2   w i t h   3 - g r a m ;   m a c hi n e   2 . m e a n s   us i ng  s t ra t e g y   2   w i t h   4 - g r a m ,   a n s o   o n .   T h e   e xpe ri m e n t ’s   r e s ul t s   s h o w   t h a t   w i t h   t h e   a d di t i o n   o f   n - g r a m s   i n   t h e   m o n o l i n gu a l   c o r pus   t a ke n   f r o m   t h e   pa r a l l e l   c o r pus ,   i t   do e s   n o t   s h o w   a n   i n c r e a s e   i n   a c c u r a c y   (r e pr e s e n t e by   BL E U   v a l ue ),   e ve n   l o w e r   t ha n   t h e   3 - g r a m   b a s e l i n e .   T h e   h i g h e s t   s c o r e   r e m a i n s   o n   t h e   3 - g r a m   m o de l ,   w hi c h   i s   40 . 79 .       T a b l e   1 .   R e s ul t   f r o m   s t ra t e gy   1   M a c h i n e   n - g ra m   BL E U   S c o r e   (% )   1 .3   3 - g ra m   3 2 . 4 2   1 .4   4 - g ra m   3 2 . 4 6   1 . 5   5 - g ra m   3 2 . 4 6   1 . 6   6 - g ra m   3 2 . 4 6   1 . 7   7 - g ra m   3 2 . 4 6     T a b l e   2 R e s ul t   f r o m   s t ra t e gy   2   M a c h i n e   n - g ra m   BL E U   S c o r e   (% )   2 .3   3 - g ra m   4 0 . 7 9   2 .4   4 - g ra m   4 0 . 6 9   2 .5   5 - g ra m   4 0 . 6 9   2 .6   6 - g ra m   4 0 . 6 7   2 .7   7 - g ra m   4 0 . 7 1     - 0 . 8 3 3 2 7 6 9     d u w e   d h u w i t   k a n g g o   - 0 . 9 1 2 4 5 8 2     i n g   d h u w u p a n g g u n g   - 0 . 4 3 5 3 3 6 9     p a n t e s   d i a n g g o   n g g e r e t   - 0 . 4 3 5 3 3 6 9     w i s   d i e n t e n i   a b a h   - 0 . 8 3 3 2 7 6 9     s i n g   d i g a w a   ,   - 0 . 1 7 1 3 2 4 9     a re p a   d i k a y a   n g a p a   - 0 . 7 3 6 3 6 6 9     g e l e m   d i k e t h a k   ,   - 0 . 7 3 6 3 6 6 9     g e l e m   d i k e t h a k   s i ra h e   - 0 . 4 3 5 3 3 6 9     ,   d i n a   i k i   - 0 . 3 7 4 6 3 7 3     < s >   d i n a   e s u k e   - 0 . 9 7 9 4 0 5       i n g   d i n a   i k i   - 0 . 5 3 9 3 0 1 8     i n g   d i n a   i k u   - 0 . 4 3 5 3 3 6 9     p i t u n g   d i n a   p i t u n g   - 0 . 7 3 6 3 6 6 9     s a w a t a ra   d i n a   < / s >   - 0 . 1 7 1 3 2 4 9     s a w i j i n i n g   d i n a   ,   - 0 . 4 3 5 3 3 6 9     w i w i t   d i n a   i k i   - 0 . 8 3 3 2 7 6 9     s i n g   d i p a r i n g a k e   d e n i n g   - 0 . 4 3 5 3 3 6 9     s i n g   d i s e l i p a k e   i n g   - 0 . 4 3 5 3 3 6 9     b i s a   d i s i n g k i ri   m a n e h       - 1 . 0 4 6 9 5 5     t a   ,   b a h ?   "   p i t a k o n e   k a b a y a n   < / s >   - 1 . 0 4 6 9 5 5     o ra   b a k a l   b a l i   m a n e h   ,   k a b a y a n ?   "   - 1 . 0 4 6 9 5 5     m e m e d i   s i n g   a n a   n j e r o   o m a h   k o t h o n g   i k u   - 1 . 0 4 6 9 5 5     < s >   "   a h   ,   k o w e   k u w i   p a n c e n   - 1 . 2 2 3 0 4 6     < s >   a b a h   ,   a m b u   ,   l a n   n y i   - 1 . 0 4 6 9 5 5     m e m e d i   i k u   o ra   b a k a l   b a l i   m a n e h   ,   - 1 . 0 4 6 9 5 5     w o n g   t u w a   p i k u n   s i n g   s e d h e l a   m a n e h   b a k a l   - 1 . 0 4 6 9 5 5     < s >   n a l i k a   k u w i   ,   ra d e n   m a s   b a n t e ra n g   - 1 . 7 0 0 1 6 7     < s >   p u t ri   k e n a n g a   l a n   p u t r i   m a w a m l e n g o s   - 1 . 7 0 0 1 6 7     < s >   p u t ri   k e n a n g a   l a n   p u t r i   m a w a p a d h a   - 1 . 0 4 6 9 5 5     p i k u n   s i n g   s e d h e l a   m a n e h   b a k a l   m l e b u   k u b u r   - 1 . 0 4 6 9 5 5     ra k   k a n g g o   s i n g   a n a   i n g   n j e ro   w e t e n g   - 1 . 0 4 6 9 5 5     a b a h   ,   a m b u   ,   l a n   n y i   i t e u n g   - 0 . 1 2 4 9 3 8 7   < s >   "   m a t u n u w u n   ,   p a k   .   - 1 . 0 4 6 9 5 5     w i s   k e k u ra s   a n a   i n g   p a l a g a n   s a k   d u ru n g e   - 1 . 0 4 6 9 5 5     a p a   ,   n a k ?   "   p i t a k o n e   s i n g   d o d o l   - 1 . 0 4 6 9 5 5     ,   b a w a n g   ,   t e m p e   ,   t ra s i   ,   - 1 . 0 4 6 9 5 5     k a n g g o   s i n g   a n a   i n g   n j e ro   w e t e n g   i k i       Evaluation Warning : The document was created with Spire.PDF for Python.
Int   J   E l e c   &   Co m E n g     IS S N :   2088 - 8708       Im pr ov i ng   t he   r ol e   o f   l angu age   m od e l   i n   s t a t i s t i c a l   m ac h i ne   t r ans l at i on    ( H e r r y   Su j ai ni )   2107   T h e   t h i r s t ra t e gy   e xpe r i m e nt   w a s   us i n a   p a r a l l e l   c o r pus   of   4500  s e n t e n c e s   a n a   m o n o l i ngua l   c o r pus   of   4500  t o   5100  s e nt e n c e s ,   4500  b a s e l i n e   s e n t e n c e s   c o n s i s t   o f   608  r e f e r e n c e   s e n t e n c e s   a n d     3892  s e nt e n c e s   of   pa ra l l e l   c o r pus   t a r ge t s .   T h e   e xpe r i m e n t ’s   re s ul t   p r o duc e c a n   b e   fo un i n   T a b l e   3   i n d i c a t es   t h a t   t h e   a dd i t i o n   o f   m o n o l i n g ua l   c o r pus   qua nt i t i e s   t a ke n   f r o m   t h e   pa ra l l e l   c o r pus   do e s   n o t   s h o w   s i gn i f i c a n t   i n c r e a s e s   at   a c c ur a c y .   M a c h i n e   3 . 45   m e a n s   us i ng  s t r a t e gy   3   w i t h   4500  s e n t e n c e s ;   m a c h i n e   3 . 46   m e a n s   us i n s t ra t e gy   3   w i t h   4600  s e nt e n c e s ,   a n s o   o n .   T h e   hi g h e s t   v a l ue   o n   a   3 . 51   c a n   o n l y   i n c r e a s e   t h e   a c c ur a c y   o ((40. 8 1 - 40 . 59)   /   40 . 59)   100%   =   0 . 54% .   T h e   f o ur t h   s t ra t e g y   e xpe r i m e n t   w a s   us i n g   a   pa ra l l e l   c o r pus   o f   4500  s e n t e n c e s   a n a   m o n o l i n g ua l   c o r pus   of   4500  t o   5100  s e nt e n c e s ,   a n d   t h e   w h o l e   4500  b a s e l i n e   s e nt e n c e s   w e r e   t a ke f r o m   t h e   p a r a l l e l   c o r pus   t a r ge t   s e nt e n c e .   T h e   r e s ul t s   o f   t h e   e xpe r i m e nt s   p r o duc e c a n   b e   fo un d   i T a b l e   4   i ndi c a t es   t h a t   t h e   a ddi t i o o m o n o l i n gu a l   c o r pus   qu a nt i t i e s   t a ke f r o m   t h e   r e f e r e n c e   s e nt e n c e   s h o w s   a   s i gni f i c a nt   i n c r e a s e   at   a c c ura c y .   M a c hi n e   4 . 45   m e a n s   us i ng  s t r a t e g y   4   w i t h   4500  s e nt e n c e s ;   m a c h i n e   4. 4 6   m e a n s   us i n s t ra t e gy   4   w i t h   4600   s e n t e n c e s ,   a n s o   o n.   T h e   hi g h e s t   v a l ue   o n   a   4 . 51   m a c hi n e   w i t h   5 100  s e n t e n c e s   i m o n o l i n gu a l   c o r pus   c a n   i n c r e a s e   a c c ur a c y   by   ((40. 63 - 32. 4 2)  /   3 2. 4 2)  *   10 0%  =   25. 32 %.       T a b l e   3 R e s ul t   f r o m   s t ra t e gy   3   M a c h i n e   M o n o l i n g u a l   c o r p u s   BL E U   S c o r e   (% )   3 . 4 5   45 00   4 0 . 5 9   3 . 4 6   46 00   4 0 . 4 6   3 . 4 7   47 00   4 0 . 2 0   3 . 4 8   48 00   4 0 . 4 6   3 . 4 9   49 00   4 0 . 6 4   3 . 5 0   50 00   4 0 . 6 3   3 . 5 1   51 00   4 0 . 8 1     T a b l e   4 R e s ul t   f r o m   s t ra t e gy   4   M a c h i n e   M o n o l i n g u a l   c o r p u s   BL E U   S c o r e   (% )   4 . 4 5   45 00   3 2 . 4 2   4 . 4 6   46 00   3 5 . 4 8   4 . 4 7   47 00   3 7 . 1 9   4 . 4 8   48 00   3 7 . 8 2   4 . 4 9   49 00   3 8 . 5 5   4 . 5 0   50 00   3 9 . 5 2   4 . 5 1   51 00   4 0 . 6 3         E xpe r i m e nt s   c o n duc t e o n   s t ra t e gi e s   1   a nd  2   s h o w   t h a t   t he   us e   of   n - g ra m   m o de l   f r o m   3 - g ra m   t o     7 - g r a m   do e s   n o t   a f f e c t   t h e   a c c u r a c y   of   t h e   I n do n e s i a n - J a v a   t ra n s l a t o r   m a c hi n e   w i t h   a   p a r a l l e l   c o r pus   o   4500  s e n t e n c e s .   T hi s   i s   due   t o   t h e   s m a l l   num b e r   o f   s e n t e n c e s   us e i n   t h e   c o r pus .   T h e   s m a l l   qua nt i t y   of   c o r pus   s e n t e n c e s   r e s ul t s   i n   n o   v a r i a t i o n   i n   t h e   p r o b a b i l i t y   o f   e a c pa i o f   t o ke n s ,   a s   s e e i t h e   7 - g r a m   l a ngua ge   m o de l ;   t hus ,   f o r   S M T   us i n g   t h e   s m a l l   c o r pus ,   i t   i s   b e s t   t o   ke e us i n g   t h e   3 - g ra m   l a n gu a ge   m o de l .   T h e   m o n o l i ngua l   c o r pus   qua nt i t y   a ddi t i o n   e xpe ri m e n t s   us e f o r   gra du a l   l a ngua ge   m o de l   t ra i ni n g,   t h e   r e s ul t s   a r e   de m o n s t ra t e by   s t r a t e g i e s   a n 4.   F r o m   t he   e xp e r i m e nt a l   r e s ul t s ,   i t   i s   f o un t h a t   t h e   b e s t   r e s ul t s   a r e   o b t a i n e by   i n c r e a s i n g   t h e   qu a n t i t y   of   t h e   m o n o l i ngua l   c o r pus   o ut s i de   t h e   pa ra l l e l   c o r pus   i n   s t ra t e gy   4,   i n   o t h e r   w o r ds ,   t h e   m o n o l i ngua l   c o r pus   t a ke n   f r o m   t h e   pa ra l l e l   c o r pus   t a r ge t   l a n gu a ge ,   t h e n   a d de w i t h   a n o t h e r   s e n t e n c e   b e y o n t h e   e xi s t i n s e n t e n c e   i n   t h e   pa ra l l e l   c o r pus .   T h e   i n c r e a s e   of   t h e   BL E U   s c o r e   o e a c h   m a c h i n e   t o   t h e   b a s e l i n e   c a b e   s e e n   i n   F i g u r e .   6.   T h e   e xpe r i m e nt ’s   r e s ul t s   o s t ra t e gy   s h o w   a   s i g ni f i c a n t   i n c r e a s e   f o r   e a c h   a dd i t i o n   o f   100  s e nt e n c e s   t o   t h e   m o n o l i n g ua l   c o r pus ,   a s   s e e n   i T a b l e   5.   F r o m   t h e   r e s ul t s   o t h i s   s t udy ,   i t   c a n   b e   c o n c l ude t h a t   t h e   r o l e   of   t h e   l a n g ua ge   m o de l   i s   qui t e   i m po rt a nt   i n   a n t i c i pa t i n t h e   s e nt e n c e s   t o   b e   t r a n s l a t e o n   t h e   SMT ,   e s pe c i a l l y   w h e n   t h e   phra s e   i n   t h e   s e n t e n c e   i s   n o t   c o n t a i n e d   i t h e   t r a n s l a t i o m o de l .   T hi s   w i l l   c e r t a i nl y   be   m o r e   a pp a r e nt   o n   S M T   w i t h   s m a l l   r e s o ur c e s   b e c a us e   t h e   pos s i b i l i t y   of   a   s e n t e n c e   t b e   t r a n s l a t e do e s   n o t   e xi s t   i n   t h e   t ra n s l a t i o n   m o de l   i s   c e r t a i nl y   v e r y   l a r ge   c o m pa r e d   t o   S M T   w i t h   l a rge   r e s o ur c e s .           F i gu r e   6 .   I n c r e a s i ng   o f   B L E U   s c o r e s     0 10 20 30 40 50 4 . 4 5   4 . 4 6   4 . 4 7   4 . 4 8   4 . 4 9   4 . 5 0   4 . 5 1   B L E U   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2088 - 8708   Int   J   E l e c   &   Co m E n g ,   V o l .   10 ,   N o .   2 A p ri l   2020   :     2 102   -   210 9   2108   T a b l e   5 I n c r e a s i ng  a c c ura c y   o n   s t ra t e g 4   M a c h i n e   M o n o l i n g u a l   c o r p u s   In c re a s i n g   ( % )   4 . 45   3 2 . 4 2     4 . 4 6   3 5 . 4 8   9 . 4 4   4 . 4 7   3 7 . 1 9   4 . 8 2   4 . 4 8   3 7 . 8 2   1 . 6 9   4 . 4 9   3 8 . 5 5   1 . 9 3   4 . 5 0   3 9 . 5 2   2 . 5 2   4 . 5 1   4 0 . 6 3   2 . 8 1       3.   C O N C LU S I O N     T h e   ut i l i z a t i o n   of  t h e   n - g r a m   m o de l   f r o m   3 - g ra m   t o   7 - gra m   d o e s   n o t   a f f e c t   t h e   a c c u r a c y   of   t h e   I n do n e s i a n - J a v a   t r a n s l a t o m a c hi n e .   I t   i s   r e c o m m e nde t ha t   SMT   us i n g   s m a l l   c o r pus   s h o ul d   ke e us i n g   3 - g ra m   l a ngua ge   m o de l .   T h e   b e s t   r e s ul t   f o r   i m p r o v i n t he   l a n gu a ge   m o de l   r o l e   i s   t o   us e   t h e   t h e   p a r a l l e l   c o r pus   t a r ge t   l a ngua ge   a s   t h e   m o n o l i n gu a l   c o r p us ,   t h e a dde a s   m uc h   a s   po s s i b l e   w i t h   o t h e r   s e nt e n c e s   b e y o n t h e   e xi s t i ng  s e n t e n c e   i t h e   pa ra l l e l   c o r pus .       R EF ER EN C ES     [ 1]   M .   V o l k P a r a l l e l   C o r po r a ,   T e r m i no l o gy   E xt r a c t i o und   M a c hi ne   T r a ns l a t i o n ,   I n:   1 6.   D T T Sy m pos i on .   T e r m i no l og i e   und   T e x t ( e ) ,   M an nhe i m ,   22   -   2 M a r c 2 018 ,   3 - 14.     2 018.     [ 2]   E .   Y ı l z ,   A . C .   T a n t g ,   a nd  B .   D i r i .   T he   e f f e c t   o f   pa r a l l e l   c o r pus   qua l i t y   v s   s i z e   i E ng l i s h - to - T ur ki s S M T ,   I n   P r oc e e di ngs   o f   t he   Si x t I n t e r nat i on al   C on f e r e nc e   on   W e s e r v i c e s   and  Se m ant i c   T e c hno l og y   ( W e ST   2014) ,   201 4.     [ 3]   A .   I m a nkul o v a ,   T .   S a t o ,   M .   K o m a c hi ,   I m pr ov i ng   L o w - R e s o ur c e   N e ur a l   M a c h i ne   T r a ns l a t i o w i t h   F i l t e r e d   P s e udo - pa r a l l e l   C o r p us ,   I P r oc e e di ngs   of   t he   4t W or k s hop   on   A s i an   T r ans l a t i o ( W A T 2017) ,   T a i pe i ,   2 017   [ 4]   K . K .   A r o r a   a nd   S . S .   A g r a w a ,   P r e - P r o c e s s i ng   o f   E ng l i s h - H i n di   C o r pus   f o r   S t a t i s t i c a l   M a c hi n e   T r a ns l a t i o n ,   C om put ac i ón   y   Si s t e m as ,   V o l .   21 ,   N o .   4 ,   2017 .     [ 5]   H .   T r a n ,   Y .   G uo ,   P .   J i a n ,   S .   S h i ,   a n H .   H ua ng ,   I m pr o v i ng   P a r a l l e l   C o r pu s   Q ua l i t y   f o r   C hi ne s e - V i e t na m e s e   S t a t i s t i c a l   M a c hi n e   T r a n s l a t i o n ,   J our nal   o f   B e i j i ng   I ns t i t u t e   of   T e c hnol ogy ,   V o l .   27 ,   N o .   1 ,   2 018 .     [ 6]   M . G .   A s pa r i l l a ,   H .   S u j a i n i ,   a nd  R . D .   N y o t o ,   C o r p us   Q ua l i t y   I m pr o v e m e nt   t o   I m pr ov e   t he   Q ua l i t y   of   S t a t i s t i c a l   T r a n s l a t o r   M a c hi n e s   ( C a s e   S t udy   of   I ndo ne s i a L a ng ua g e   t o   J a v a   K r a m a ) ,   J ur nal   L i n gu i s t i k   K om pu t a s i o nal ,     V o l .   1 ,   N o .   2 ,   2018 .   [ 7]   J .   S u ,   H .   W u ,   H .   W a ng ,   Y .   C h e n ,   X .   S h i ,   H .   D o ng ,   a nd  Q .   L i u,   T r a n s l a t i o M o de l   A da p t a t i o f o r   S t a t i s t i c a l   M a c hi n e   T r a n s l a t i o w i t h   M o no l i ng ua l   T o pi c   I nf o r m a t i o n,   i P r oc e e di ngs   of   t he   50 t A nnua l   M e e t i ng  of   t he   A s s o c i a t i on   f o r   C om pu t a t i o na l   L i ng ui s t i c s   ( V o l um e   1 :   L ong   P ape r s ) ,   J e j u   I s l a nd ,   201 2.   [ 8]   G .   N e ub i g ,   T .   W a t a na b e ,   " O p t i m i z a t i o f o r   S t a t i s t i c a l   M a c hi ne   T r a ns l a t i o n:   A   S ur v e y , "   C om put at i ona l   L i ngu i s t i c s V o l .   4 2,   N o .   1 ,   201 6.   [ 9]   K . N .   D e w ,   A . M . T ur n e r ,   Y . K .   C ho i ,   A .   B o s o l d,   a nd  K .   K i r c h ho f f e ,   " D e v e l o pm e nt   o f   M a c hi ne   T r a n s l a t i o T e c hno l o gy   f o r   A s s i s t i ng   H e a l t C o m m uni c a t i o n:   A   S y s t e m a t i c   R e v i e w , "   J o ur n al   o f   B i om e di c al   I n f or m at i c s   V o l .   8 5,   20 18     [ 10]   P . J .   A nt o ny   a nd  K . P .   S o m a n ,   K e r ne l   B a s e d   P a r t   o f   S pe e c T a g ge r   f o r   K a nnda ,   i I n t e r nat i on al   C on f e r e nc e   on   M ac hi ne   L e ar ni ng   and   C y be r ne t i c s ,   I C M L C   2010 ,   Q i ng da o ,   S ha n d o ng ,     201 0.       [ 11]   M .   M o ha g he g h,   A .   S a r r a f xa d e h ,   a nd  T .   M o i r ,   " I m pr o v e L a ngua g e   M o de l i ng   f o r   E ng l i s h - P e r s i a S t a t i s t i c a l   M a c hi n e   T r a n s l a t i o n , "   i P r oc e e di ngs   o f   SSS T - 4 ,   F our t W or k s ho on  Sy n t a x   and   S t r u c t u r e   i St at i s t i c al   T r ans l a t i on ,   C O L I N G   2010 ,   B e i j i ng ,   2010 .     [ 12]   J .   S a ng e e t ha ,   S .   J o t hi l a ks hm i ,   a nd   R . N . D .   K um a r ,   " A E f f i c i e nt   M a c hi ne   T r a ns l a t i o S y s t e m   f o r   E ng l i s t o   I ndi a L a ng ua g e s   U s i ng   H y br i M e c ha n i s m , I nt e r n at i ona l   J ou r na l   of   E ng i ne e r i ng   and   T e c hno l og y   ( I J E T ) ,   V o l .   6 ,     N o .   4,   20 14 .   [ 13]   H .   S u j a i n i ,   K us pr i y a nt o ,   A . A .   A r m a n ,   a n A .   P u r w a r i a n t i ,   E x t e nd e W o r S i m i l a r i t y   B a s e d   C l us t e r i ng   o U ns upe r v i s e P o S   I nduc t i o t o   I m pr ov e   E ng l i s h - I nd o ne s i a S t a t i s t i c a l   M a c hi n e   T r a ns l a t i o n ,   i 16 t O R I E N T A L   C O C O SD A / C A SL R E - 20 13 ,   G u r g a o n,   I ndi a ,   2013 .   [ 14]   H .   Y u ,   J .   S u ,   Y .   L v ,   a nd  Q .   L i u,   A   T o pi c - T r i g g e r e L a ng ua g e   M o de l   f o r   S t a t i s t i c a l   M a c hi ne   T r a n s l a t i o n ,   i n   P r oc e e di ngs   o f   t he   Si x t I n t e r nat i on al   J oi n t   C on f e r e nc e   on  N at ur a l   L angua ge   P r oc e s s i ng ,   N a g oy a ,   2013 .   [ 15]   Y .   Z ha ng ,   A .   N i e ,   A .   Z e h nde r ,   L .   R o dne y ,   a nd  J .   Z o u,   V e t T ag :   i m pr ov i ng  au t om a t e v e t e r i na r y   di a gno s i s   c o di n g   v i a   l ar ge - s c a l e   l angu age   m ode l i ng ,   D i g i t a l   M e di c i n e ,   2 019 .     [ 16]   M .   M o ha g he g h,   A .   S a r r a f z a de h,   a nd  T .   M o i r ,   I m pr o v e L a n gua g e   M o de l i ng   f o r   E ng l i s h - P e r s i a S t a t i s t i c a l   M a c hi n e ,   in   SS ST - 4,   F our t W or k s hop   on   S y nt ax   and   S t r uc t ur e   i n   St a t i s t i c a l   T r a ns l a t i o n ,   B e i j i ng ,   201 0.   [ 17]   C .   M o nz ,   S t a t i s t i c a l   M a c h i ne   T r a n s l a t i o w i t L o c a l   L a ng ua g e   M o de l s ,   in   C o nf e r e nc e   on  E m pi r i c al   M e t hod s   i n   N at ur al   L a ngua ge   P r oc e s s i ng ,   E di n bur g h ,   2 011 .     [ 18]   S .   B a ne r j e e ,   J .   M o s t o w ,   J .   B e c k,   a n W .   T a m ,   " I m pr ov i ng   L a ng ua ge   M o de l s   by   L e a r ni ng   f r o m   S pe e c R e c o g ni t i o n   E r r o r s   i n   a   R e a d i ng   T ut o r   t h a t   L i s t e ns , "   i n   Se c ond   I n t e r na t i ona l   C onf e r e nc e   on  A pp l i e A r t i f i c i a l   I nt e l l i ge nc e 2003 .   Evaluation Warning : The document was created with Spire.PDF for Python.
Int   J   E l e c   &   Co m E n g     IS S N :   2088 - 8708       Im pr ov i ng   t he   r ol e   o f   l angu age   m od e l   i n   s t a t i s t i c a l   m ac h i ne   t r ans l at i on    ( H e r r y   Su j ai ni )   2109   [ 19]   H .   S u j a i n i ,   K us pr i y a nt o ,   A . A .   A r m a n,   a n A .   P u r w a r i a n t i ,   A   N ov e l   P a r t - of - S pe e c S e t   D e v e l o pi ng   M e t ho f o r   S t a t i s t i c a l   M a c hi ne   T r a n s l a t i o n , ”  T E L K O M N I K A   ( T e l e c om m un i c a t i on  C om put .   E l e c t r on .   C on t r ol . ) ,   v o l .   12 ,   no .   3,   2014 .   [ 20]   K .   J a y a   a nd  D .   G up t a ,   E xp l o r a t i o o f   C o r pus   A ug m e nt a t i o A ppr o a c f o r   E ng l i s h - H i n di   B i d i r e c t i o na l   S t a t i s t i c a l   M a c hi n e   T r a n s l a t i o S y s t e m , ”  I n t e r na t i ona l   J o ur n al   of   E l e c t r i c a l   an C om p ut e r   E ngi ne e r i ng  ( I J E C E ) ,   v o l .   6 ,   no .   3 ,   2016 .   [ 21]   [ z ]   C .   S h a o ul ,   C . F .   W e s t bu r y ,   a nd  R . H .   B a a y e n, " T he   Subj e c t i v e   F r e que nc y   of   W or d   n - gr am s , "   P S I H O L O G I J A ,   V o l .   4 6,   N o .   4 ,   201 3.   [ 22]   A .   S t o l c ke ,   J .   Z he n g ,   W .   W a ng ,   a nd  V .   A br a s h ,   S R I L M   a t   s i x t e e n:   U pda t e   a nd  o ut l o o k,   in   A u t om a t i c   Spe e c h   R e c ogni t i on  and   U nde r s t a ndi ng   ( A SR U ) ,   2 011   I E E E   W o r ks ho p,   W a i ko l o a ,   20 11 .     [ 23]   F .   J .   O c a n H .   N e y ,   A   S y s t e m a t i c   C o m pa r i s o o f   V a r i o us   S t a t i s t i c a l   A l i g nm e n t   M o de l s ,   C om pu t a t i ona l   L i ngu i s t i c s ,   v o l .   1 ,   no .   29,   p p.   19 - 51 ,   200 3.     [ 24]   W .   X a nd  P .   K o e hn,   E xt e nd i ng   H i e r o   D e c o di ng   i M o s e s   w i t C u be   G r o w i ng ,   T h e   P r a g ue   B u l l e t i o f   M a t he m a t i c a l   L i ng ui s t i c s ,   8 ( 1 ) ,   20 12     [ 25]   K .   P a p i n e ni ,   S .   R o uko s ,   T .   W a r a nd  W . - J .   Z hu ,   B L E U :   A   M e t ho F o r   A ut o m a t i c   E v a l ua t i o o f   M a c hi n e   T r a n s l a t i o n,   in   P r oc e e di ngs   o f   t he   40t A nnua l   M e e t i ng  o f   t he   A s s oc i a t i on  o f   C om pu t a t i o na l   L i n gui s t i c s   ( A C L ) ,   P e nns y l v an i a ,   2002 .       BI O G R A P H Y   O F   A U T H O R       H e r r y   S u j a i n i   g r a dua t e f r o m   ba c he l o r 's   de g r e e   in   t he   E l e c t r i c a l   E ng i ne e r i ng   D e pa r t m e n t ,   U ni v e r s i t y   of   T a nj ung pu r a .   H e   g o t   hi s   m a s t e r   a nd  do c t o r a l   de g r e e   f r o m   S T E I ,   B a ndung   I ns t i t u t e   o f   T e c hno l o gy .   S i nc e   1997 ,   h e   h a s   be c o m e   a   l e c t ur e r   a t   I nf o r m a t i c s   D e pa r t m e n t ,   E ng i n e e r i ng   F a c ul t y ,   U ni v e r s i t y   o f   T a nj ung pur a .   H e r   r e s e a r c i n t e r e s t   i s   o c o m put a t i o na l   l i ng ui s t i c s ,   m a i n l y   o m a c hi ne   t r a ns l a t i o a nd   m a c hi n e   l e a r ni ng       Evaluation Warning : The document was created with Spire.PDF for Python.