I AE I nte rna t io na l J o urna l o f   Ro bo t ics a nd   Aut o m a t io ( I J RA)   Vo l.  1 0 ,   No .   4 Dec em b er   2 0 2 1 ,   p p .   3 2 6 ~ 3 3 9   I SS N:  2722 - 2 5 8 6 DOI : 1 0 . 1 1 5 9 1 / i jr a . v 1 0 i 4 . pp 3 2 6 - 339     326       J o ur na l ho m ep a g e h ttp : //ij r a . ia esco r e. co m   Ada ptive la ng ua g e process ing  uni for Ma la y sia n sig n lang ua g sy nthesizer       H a ris Al  Q o dri Ma a rif 1 ,   T eddy   Su ry a   G un a wa n 2 ,   Rini A k m elia wa t i 3   1 De p a rtme n o M e c h a tr o n ics   E n g in e e rin g ,   I n tern a ti o n a Isla m ic U n iv e rsit y   M a lay sia ,   M a lay sia   2 De p a rtme n o El e c tri c a a n d   Co m p u ter E n g i n e e rin g ,   In ter n a ti o n a l   Isla m ic Un iv e rsity   M a lay sia ,   M a lay sia   2 S c h o o o f   El e c tri c a En g in e e ri n g   a n d   Tele c o m m u n ica ti o n s,   Un i v e rsity   o f   Ne w S o u th   Wale s,  Au stra l ia   3 S c h o o o f   M e c h a n ica E n g i n e e ri n g ,   U n iv e rsit y   o Ad e laid e ,   Au str a li a       Art icle  I nfo     AB S T RAC T     A r ticle  his to r y:   R ec eiv ed   2 4   J u n 2 0 2 1   R ev is ed   29   J u l 2 0 2 1   Acc ep ted   2 6   Au g 2 0 2 1       Lan g u a g e   p r o c e ss in g   u n it   (LP U)  is  a   sy ste m   b u il to   p r o c e ss   tex t - b a se d   d a ta   to   c o m p ly   wit h   t h e   r u les   o th e   sig n   lan g u a g e   g ra m m a r.   Th is  s y ste m   wa s   d e v e lo p e d   a a n   imp o rtan p a rt  o f   th e   sig n   lan g u a g e   sy n th e siz e sy ste m .   S ig n   lan g u a g e   (S L)  u se d iffere n t   g ra m m a ti c a ru les   fro m   t h e   sp o k e n /v e r b a lan g u a g e ,   wh ich   o n l y   in v o lv e t h e   imp o rtan wo rd t h a h e a rin g /i m p a ired   sp e e c h   p e o p le  c a n   u n d e rsta n d .   Th e re fo re ,   it   n e e d wo r d   c las sifica ti o n   b y   LP to   d e term in e   g ra m m a ti c a ll y   p ro c e ss e d   se n ten c e fo th e   sig n   lan g u a g e   sy n th e siz e r.   H o we v e r,   th e   e x i stin g   lan g u a g e   p r o c e ss in g   u n i in   S sy n th e siz e rs  su ffe rs  ti m e   lag g in g   a n d   c o m p le x it y   p r o b lem s,  re su lt i n g   i n   h ig h   p ro c e ss in g   ti m e .   T h e   two   fe a tu re s,  i. e . ,   th e   c o m p u tati o n a l   ti m e   a n d   su c c e ss   ra te,  b e c o m e   trad e - o ffs  w h ich   m e a n t h e   p r o c e ss in g   ti m e   b e c o m e lo n g e r   to   a c h iev e   a   h ig h e su c c e ss   ra te.  Th is  p a p e p r o p o se a n   a d a p ti v e   LP U   th a a ll o ws   p ro c e ss in g   t h e   wo rd s   fro m   sp o k e n   wo rd t o   M a l a y sia n   S L   g ra m m a ti c a ru le  th a re su l ts  i n   re lativ e ly   fa st  p ro c e ss in g   ti m e   a n d   a   g o o d   su c c e ss   r a te.  It  in v o l v e n - g ra m s,  n a tu ra l   lan g u a g e   p r o c e ss in g   ( NLP ) ,   a n d   h id d e n   M a r k o v   m o d e ls  (HMM )/Bay e sia n   n e two r k a th e   c l a ss ifi e to   p ro c e ss   th e   tex t - b a se d   i n p u t.   A a   re su lt ,   th e   p ro p o se d   LP s y ste m   h a su c c e ss fu ll y   p r o v i d e d   a n   e fficie n (fa st)  p ro c e ss in g   t ime   a n d   a   g o o d   su c c e ss   ra te  c o m p a re d   to   LP wit h   o t h e e d it   d istan c e ( m a h a lan o b is Le v e n sh tei n a n d   so u n d e x ).   Th e   sy ste m   h a b e e n   tes ted   o n   1 3 0   tex t - i n p u se n t e n c e with   se v e ra wo rd ra n g in g   fr o m   3   t o   1 0   w o rd s.   Re su lt s h o we d   th a th e   p ro p o se d   LP c o u ld   a c h iev e   a ro u n d   1 . 4 9 7 m p ro c e ss in g   ti m e   wit h   a n   a v e ra g e   su c c e ss   ra te o 8 4 . 2 3 %   fo a   m a x im u m   o f   ten - wo rd   se n ten c e s.   K ey w o r d s :   C las s if ier   Dis tan ce   alg o r ith m   Ma lay s ian   s ig n   lan g au g e   Natu r al  lan g u ag e   p r o ce s s in g   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Har is   Al  Qo d r i M aa r if   Dep ar tm en t o f   Me ch atr o n ics E n g in ee r in g   I n ter n atio n al  I s lam ic  Un iv er s ity   Ma lay s ia   J alan   Go m b ak ,   Ku ala  L u m p u r ,   5 3 1 0 0 ,   Ma lay s ia   E m ail: a lq o d r i.m aa r if @ g m ail. co m       1.   I NT RO D UCT I O N   Sig n   lan g u ag ( SL)   is   th p r i m ar y   lan g u ag an d   ca n   b c o n s id er ed   as  th m o th er   to n g u f o r   th HSI   p eo p le.   Ma n y   p e o p le  wh o   ar e   b o r n   d ea f   lear n   s ig n   lan g u ag as  th eir   p r im ar y   lan g u ag e,   a n d   it  r em ain s   th eir   p r ef er r e d ,   o r   f ir s t,  lan g u ag e .   T h er is   n o   wr itten   f o r m   o f   s ig n   la n g u ag e,   s o   d ea f   p eo p le  co m m u n icate   u s in g   r ea d in g   a n d   wr itin g   i n   th eir   s ec o n d   o r   less   p r ef er r e d   lan g u ag e.   T h er e f o r e,   a   s ig n if ican p r o p o r tio n   o f   d ea f   p eo p le  h av s tr o n g   p r ef er e n ce   f o r   ac ce s s in g   in f o r m atio n   in   s ig n   lan g u ag r ath e r   th an   wr itten   tex t.  Sig n   l an g u ag o n ly   n ee d s   s o m im p o r tan wo r d s   co m p ar e d   to   s p o k en   lan g u ag [ 1 ] [ 2 ] .   Gen e r ally ,   s ig n   lan g u ag e   Evaluation Warning : The document was created with Spire.PDF for Python.
I n J   R o b   &   A u to m   I SS N:  2722 - 2 5 8 6       A d a p tive  la n g u a g p r o ce s s in g   u n it fo r   Ma la ysia n   s ig n   la n g u a g s yn th esiz er   ( Ha r is   A l Q o d r i Ma a r if )   327   u s es  s u b ject,   v er b ,   n o u n ,   an d   ad v er b .   T h e r ar e   n o   o th er   s u f f ix es,  p r e f ix es,  an d   p ar ticles.  I is   n o n - v er b al   lan g u ag th at  u s es  h an d   m o v em en t,  h an d   o r ien tatio n ,   f ac e   ex p r ess io n ,   h ea d   m o v e m en t,   p o s tu r e,   an d   b o d y   o r ien tatio n   [ 3 ] .   Sin ce   s ig n   lan g u ag is   n o n - v er b al  la n g u a g e,   th u n d er s tan d in g   o f   s ig n   lan g u ag e   h as  b ee n   co m p u ls o r y   f o r   HSI   p eo p le  to   co m m u n icate .     T h awa r en ess   o f   s ig n   lan g u a g f o r   n o n - HSI   p eo p le  is   litt le,   o r   m an y   d o   n o t   k n o s ig n   lan g u a g e.   T h er ef o r e,   it  p r o v id es  an   o b s tac le  in   co m m u n icatio n   in   th co m m u n ity ,   esp ec ially   if   it   n ee d s   in ter ac tio n   b etwe en   n o n - HSI   a n d   HSI   p eo p le.   As  o b s tacle s   ar is in   co n tact  with   t h co m m u n ity ,   th c o m m u n icatio n   b r id g m u s t f ill th g ap   b etwe en   th em .   T h o p tio n s   ar s ig n   lan g u ag tr a n s lato r   an d   s ig n   la n g u ag s y n th esizer   tech n o lo g y ,   tr an s latin g   s p o k en   lan g u ag e   to   s ig n   lan g u ag [ 4 ]   Usi n g   s ig n   lan g u ag e   tr an s lato r   to   co m m u n icate   b etwe en   n o n - HSI   an d   HSI   h as  b ee n   li m ited   s in ce   s ig n   lan g u a g tr an s la to r s   ar l im ited   in   Ma lay s ia.   As  ea r ly   as  2 0 1 7 ,   th er a r o n ly   less   th an   1 0 0   ce r tifie d   SL   tr an s lato r s   to   ca ter   to   m o r t h an   3 0 , 0 0 0   p e r s o n s   o f   HSI   ( r ef er en ce s ) .   W h ile  in   th wo r ld ,   t h wo r ld   f ed e r atio n   o f   th d e af   r ep o r ted   th at  th er ar ab o u 7 0   m illi o n   HS I   p eo p le  [ 4 ]   an d   1 3 8   liv in g   s ig n   lan g u ag e,   wh ich   is   ac co r d in g   to   th e th n o lo g u ca talo g   [ 5 ] .   Sig n   lan g u ag e   s y n th esizer   c o n s is ts   o f   th r ee   m ain   m o d u l es,  i.e . ,   t h v o ice  r ec o g n itio n   m o d u le,   lan g u ag p r o ce s s in g   u n it  m o d u le,   an d   s ig n in g   m o d u le.   E ac h   m o d u le  h as  its   co m p o n e n ts   an d   alg o r ith m s   wh ich   n ee d   d if f er en ap p r o a ch   to   d ev elo p m e n t.  I n   th is   p ap er ,   th m ain   f o cu s   is   o n   th lan g u ag p r o ce s s in g   m o d u le,   wh ich   tr a n s f o r m s   th in p u lan g u a g e.   T h lan g u a g p r o ce s s in g   m o d u le  alter s   in p u lan g u ag in to   o u tp u lan g u ag th at  is   s u ita b le  f o r   o u tp u s ig n   lan g u ag e.   T h in p u an d   o u tp u lan g u ag ar in   th s eq u en ce   o f   wo r d s   ( te x t) ,   in   w h ich   s o m e   m eth o d o lo g y   is   r eq u ir ed   to   d o   th tr an s f o r m atio n   p r o ce s s   p r o p er ly .     T h d ev el o p m e n o f   lan g u ag e   p r o ce s s in g   u n its   h as  b ee n   m ad an d   im p lem e n ted   in   m an y   d if f e r en t   s ig n   lan g u ag es,  f o r   ex am p le,   Am er ican   s ig n   lan g u ag e   [ 6 ] ,   B r itis h   s ig n   lan g u ag [ 7 ] ,   So u th   Af r ica n   s ig n   lan g u ag [ 8 ] ,   an d   Au s tr alian   s ig n   lan g u ag [ 9 ] .   Ho wev er ,   i n   Ma lay s ia,   th lan g u ag p r o ce s s in g   u n it  h as  n o t   b ee n   im p lem e n ted   as  an   in teg r al  p ar o f   th s ig n   lan g u ag s y n th esizer .   Fu r th er m o r e,   th l an g u ag p r o ce s s in g   u n it  f o r   b a h asa  is y ar at  Ma lay s ia  h as  n o b ee n   im p lem en ted .   co m p r eh en s iv r e v iew  o f   th ex is tin g   wo r k   an d   p r o p o s ed   wo r k   o n   th lan g u ag p r o ce s s in g   u n it  is   p r esen ted   in   th is   p ap er .   I n   ad d itio n ,   v ar io u s   m eth o d s   s u ch   as  ed it d is tan ce n atu r al  l an g u ag e   p r o ce s s in g ,   HM m eth o d s ,   an d   B ay esian   n etwo r k   ar d is cu s s ed .         2.   L I T E R AT U RE   R E VI E W   T h is   s ec tio n   r ev iews  th e   tech n iq u es  o f   th e   lan g u a g p r o ce s s in g   u n it.  T h tec h n iq u e   f o r   th e   lan g u a g p r o ce s s in g   u n it  p r o v id es  lit er atu r b ac k g r o u n d   f o r   th l an g u ag p r o ce s s in g   u n it  u s in g   n atu r al  lan g u a g e   p r o ce s s in g .       2 . 1 .   Na t ura la ng ua g pro ce s s ing   ( NL P )   2 . 1 . 1 .   NL P   ba s ic  pro ce s s ing   T h n ec ess ar y   p r o ce s s   o f   Nat u r al  lan g u a g p r o ce s s in g   ( NL P )   th at  ca n   b u s ed   f o r   SL  s y n th esizer   is   th m o s s tr aig h tf o r war d   tec h n iq u wh ic h   h as  b ee n   im p lem en ted   [ 10 ] .   T h is   tech n i q u o n ly   in v o lv es  th r ee   b asic  o p er atio n s ,   i.e . ,   POS  ( p a r o f   s p ee ch )   tag g er ,   o p tim ize r ,   an d   s tem m in g .   Fig u r e   1   s h o ws  th s tep   o f   th is   tech n iq u e.           Fig u r 1 .   NL b asic p r o ce s s in g   [ 4 ]       T h in itial  s tag i s   th PO S   tag g er ,   wh ich   in v o lv es  m o r p h o lo g ical  an aly s is .   T h en ,   as   th PO S   tag g er ' s   o u tp u t,  th e   o p tim izer   tak es  p ar in   th f o llo win g   s tep   to   r em o v th e   u n n ec ess ar y   wo r d s .   Fin ally ,   b ef o r t h o u t p u is   g iv e n   to   t h an im atio n   s tep   [ 11 ] ,   th s t em m in g   p r o ce s s   is   in v o lv ed   in   f in d in g   th w o r d s '   p r im ar y   f o r m .     2 . 1 . 2 .   NL P   wit h g lo s s - ba s e a pp ro a ch   T h g lo s s - b as ed   ap p r o ac h   is   m eth o d   th at  ass o ciate s   th wo r d s   an d   th eir   m ea n in g s   th r o u g h   a   d ictio n ar y   [ 12 ] .   T h o r d er   o f   t h lan g u ag e   g r am m a r   d ef in es  th o r d er   o f   t h g l o s s es.  I n   r ep o r b y   Alm eid a     et  a l .   [ 1 3 ] ,   th o r d er   o f   b lo ck s   ( g lo s s es)  is   ca lcu lated   ac co r d in g   to   Po r tu g al  s ig n   lan g u ag ( L GP)   g r am m ar .   As  th f in al   s tep ,   th e   o r d er   o f   b lo ck s   was  co n v e r ted   in to   t h s ig n   lan g u ag e   o r d er .   Fig u r e   2   s h o ws  th g l o s s - b ased   Evaluation Warning : The document was created with Spire.PDF for Python.
        I SS N :   2722 - 2 5 8 6   I AE I n J   R o b   &   A u to m ,   Vo l .   1 0 ,   No .   4 Dec em b er   2 0 2 1 3 2 6     339   328   ap p r o ac h   tech n i q u b y   Alm e id a   et  a l .   [ 1 3 ] .   T h tex was   ass o ciate d   with   th d ictio n a r y   ( d ata b ase)   to   b e   p r o ce s s ed   in   n atu r al  lan g u a g p r o ce s s in g   b lo c k .   I n   a d d it io n ,   th o u t p u was  tr an s lated   to   s eq u en ce   o f   g lo s s es a n d   ac tio n s .   s tem m er   ca n   b u s ed   t o   i d en tify   th e   s tem   an d   r elev an s u f f ix es  ( an d   p r efix es),   wh i ch   allo ws  in f er r in g ,   f o r   in s tan ce ,   th g e n d er   an d   th n u m b er   o f   g i v e n   wo r d s .   p ar t - of - s p ee ch   ( P OS)   tag g er   ca n   also   co n tr ib u te  t o   th t r an s latio n   p r o ce s s ,   wh ich   c o u p les  with   th s tem m er   in   t h id en tifi ca t io n   o f   th d if f er e n ty p es  o f   af f ix es.  I n   ad d itio n ,   POS  tag g er   u s u ally   f ee d s   f u r th er   p r o ce s s in g ,   f o r   in s ta n ce ,   n am ed   en tity   r ec o g n izer s   an d   s y n tactic  an aly ze r s .   n am ed   e n tity   r ec o g n izer   allo ws  id en tify in g   p e r s o n s '   n am es  an d   s y n tactic  an aly ze r   to   d eter m in th s en ten ce ' s   s y n tactic  co m p o n en ts ,   s u ch   as su b ject  a n d   o b ject.           Fig u r 2 .   NL P with   g lo s s   b ase d   tech n iq u [ 13 ]       2 . 1 . 3 .   NL P   wit rule - ba s e d a nd   s t a t is t ica l t ra ns la t io n   T h r u le - b ased   tr an s latio n   is   s tr ateg y   th at   an aly s es  th e   wo r d ' s   in p u t   u n til   g r o u p   o f   wo r d s   ( s en ten ce )   [ 14 ] .   T h tr a n s latio n   an al y s is   f in d s   s p ec if ic   co m b in atio n s   o f   wo r d s   o r   s ig n s   ( b l o ck s )   th at   g en e r ate   s ig n .   T h f i n d in g   p r o ce s s   s tar ts   f r o m   ea ch   w o r d   in d iv id u ally   an d   e x ten d s   th a n aly s is   to   n eig h b o r h o o d   co n tex w o r d s   o r   alr ea d y - f o r m ed   s ig n s .   T h er ar two   s te p s   in v o lv ed   in   t h tr an s latio n   p r o ce s s .   I n   th f ir s t   o n e,   ev e r y   w o r d   is   m a p p ed   to   o n e   o r   s ev e r al  s y n tactic  p r a g m atic  tag s .   T h t r an s latio n   m o d u le  t h en   ap p lies   d if f er en r u les  th at  co n v e r th tag g ed   w o r d s   in to   s ig n s   t h r o u g h   g r o u p in g   c o n ce p ts   o r   s ig n s   ( b lo ck s )   an d   d ef in in g   n ew   s ig n s .   T h ese  r u l es  ca n   d ef in e   s h o r t   an d   ex ten s iv s co p r elatio n s h ip s   b etw ee n   th e   co n ce p ts   o r   s ig n s .   At  th e n d   o f   th p r o ce s s ,   th b lo ck   s eq u en ce   is   ex p e cted   to   c o r r esp o n d   to   t h s ig n   s eq u en ce   r esu ltin g   f r o m   th e   tr an s latio n   p r o ce s s .   T h r u le - b ased   tr a n s latio n   m o d u le  p r o v id es  th tr an s l atio n   r u les  f o r   th e   tr an s latio n   p r o ce s s .   San - Seg u n d o   et   a l .   [ 1 5 ]   p r o v id ed   th e v alu atio n   to o ls   f o r   p er f o r m a n ce   m ea s u r es.  T h r ee   av ailab le  m ea s u r em e n to o ls   h av b ee n   c o n s id er ed :   s ig n   er r o r   r ate  ( SER),   p o s itio n   in d e p en d en r ate  ( PER),   an d   b ilin g u al  ev alu atio n   u n d er s tu d y   ( B L E U) .     T h s tatis tical  tr an s latio n   m eth o d   ca lcu la tes  th e   p r o b ab ilit y   b etwe en   th w o r d   s eq u en ce   an d   s ig n   s eq u en ce   s to r ed   in   d atab ase  as  th r ef er en ce   [ 16 ] .   On o f   th m eth o d s   in   s tatis tical  tr an s latio n   is   p h r ase - b ased   tr an s latio n   [ 15 ] [ 17 ] .   Fig u r 3   s h o ws  th e   d iag r a m   o f   t h p h r ase - b ased   tr a n s latio n   m o d u le  u s ed   b y   San - Seg u n d o   et  a l .   [ 1 5 ] .           Fig u r 3 .   Diag r a m   o f   p h r ase - b ased   tr an s latio n   m o d u le  [ 18 ]     Evaluation Warning : The document was created with Spire.PDF for Python.
I n J   R o b   &   A u to m   I SS N:  2722 - 2 5 8 6       A d a p tive  la n g u a g p r o ce s s in g   u n it fo r   Ma la ysia n   s ig n   la n g u a g s yn th esiz er   ( Ha r is   A l Q o d r i Ma a r if )   329   T h tr an s latio n   p r o ce s s   u s es  tr an s latio n   m o d el   b ased   o n   p h r ases   an d   ta r g et  la n g u a g e   m o d el   as  r ep o r ted   i n   San - Seg u n d o   et  a l .   [ 1 9 ] ,   [ 2 0 ] ,   th GI Z A+ s o f twar h as  b ee n   u s ed   to   ca lc u late  th alig n m en ts   b etwe en   wo r d s   an d   s ig n s .   Sa n - Seg u n d o   et   a l .   [ 1 5 ]   r e p o r te d   th at  t h s tatis tical   tr an s latio n   s h o ws  th e   wo r s o u tco m f r o m   th r u le - b ased   s tr ateg y .   T h is   co n d itio n   is   d u e   to   its   r estricte d   d o m ain ,   an d   i h as  b ee n   p o s s ib le   to   d ev elo p   co m p lete  s et  o f   r u les with   r ea s o n ab le  ef f o r t.      2 . 2 .   E dit  di s t a nce  t ec hn iqu e s   2 . 2 . 1 .   L ev ens hte i dis t a nce   L ev en s h tein   d is tan ce   ( L D)   is   tech n i q u f o r   lo o k in g   f o r   th d i f f er en ce s   b etwe en   tw o   d if f e r en t   s tr in g s   an d   co m p u tin g   th two   d if f er en p h o n etic  s tr in g s '   d i s tan ce .   T h b asic  tech n iq u o f   L D   in v o lv es  th r ee   m ain   p r o ce s s es,  wh ich   ar in s er tio n ,   d eletio n ,   an d   s u b s titu tio n s .   T h L D   is   m eth o d   o f   al ig n in g   two   p h o n etic  s eg m en ts .   T h e   en h a n ce m en t   was  im p lem en ted   i n   p r io r   r ese ar ch ,   allo win g   o n ly   alig n m e n ts   o f   c o n s o n a n ts   with   co n s o n an ts   an d   v o wels with   v o wels  [ 21 ]   T h L D   is   a   p o p u lar   s tr in g   m etr ic  u s ed   to   ev alu a te   s tr in g s   o n   o r th o g r ap h ic  s im ilar ity   in   i n f o r m atio n   th eo r y .   L D   c o u n ts   m in im al  s u b s titu tio n s ,   in s er tio n s ,   an d   d el etio n s   to   ed it o n s tr in g   in to   a n o th er   o f   an y   le n g th   [ 22 ] .   Fo r   wo r d   p air s   with   eq u al  wo r d   len g th ,   L D   p r o d u ce s   o n ly   d is tan ce s   s m aller   o r   eq u al  to   th Ham m in g   d is tan ce   [ 23 ] T h e   Ham m in g   d is tan ce   co u n ts   th e   m in im al  n u m b er   o f   s u b s titu tio n s   n ee d ed   to   ed it  o n s tr in g   in to   an o th e r   eq u al  le n g th   [ 24 ] .   T h im p lem e n tatio n   o f   L p r o v id es  th e   d is ta n ce   ca lc u latio n   o f   two   v ar ieties  o f   wo r d s   [ 25 ] .   T h L D   was  u s ed   in   th an aly s is   o f   li n g u is tic  v ar iat io n s   in   m a n y   o th er   lan g u ag es,  f o r   ex am p le,   Ger m an   [ 26 ] ,   Du tc h   [ 27 ] ,   Frisian   [ 28 ] ,   a n d   B u lg a r ian   [ 29 ] .   T h o th er   s u cc ess f u im p lem en tatio n   was  test ed   o n   1 5   No r weg ian   d ialec ts   p er ce p tu ally   an d   ac o u s tically   [ 30 ] .     2 . 2 . 2 .   M a ha la no bis   di s t a nce   Ma h alan o b is   d is tan ce   is   th d is tan ce   b etwe en   two   s am p le s   b ased   o n   th eir   m ea n   f ea t u r v ec to r s   an d   ,   an d   th e   co v ar ian ce   m at r ix   Σ  o f   th e   f ea tu r es  ac r o s s   a ll  s am p les  in   a   d atab ase.   T h e   Ma h alan o b is   d is tan ce   is   g iv en   as ( 3 )   [ 31 ] .     ( , ) = ( ) ( ) 1     ( 3 )     T h m ah alan o b is   d is tan ce   m etr ic  is   s ca led   ac co r d in g   to   th p r ec is io n   m atr ix   ( th co v a r ian c m atr ix 's   in v er s e)   [ 32 ] .   I p r o v i d es  way   o f   r ed u ci n g   t h in f l u en c o f   d is tan ce s   alo n g   d im en s i o n s   ir r elev a n to   t h cu r r en d escr ip tiv wo r d   a n d   n o r m alizin g   d is tan ce s   ac r o s s   d if f er en t   f ea tu r e   s p ac es  to   c r e ate  s in g le  d is tan ce   v alu f o r   o b ject  class if icatio n .   T h e   m ah alan o b is   d is tan ce   m etr ic  ca n   b s ee n   as  a   f ea tu r weig h tin g   with in   d im en s io n s   o f   f ea tu r es  an d   e x clu s iv f ea tu r es.  Fo r   ex am p l e,   th lig h tn ess   d im en s io n   o f   co lo r   s p ac v ar ies  m o r t h an   th c o lo r   d im en s io n s   f o r   a   g iv en   co l o r   wo r d .   T h er ef o r e,   d is tan ce   i n   th e   lig h t n ess   d im en s io n   h as  a   r ed u ce d   ef f ec o n   class if icatio n .   Scalin g   f ea tu r es  in   th is   m an n er   also   allo u s   to   co m b in e   d is jo in f ea tu r es  o f   v ar y in g   d im en s io n s   an d   d is tr i b u tio n s ,   allo win g   g r ea ter   f lex i b ilit y   f o r   f u tu r f ea tu r es  [ 33 ]   Ma h alan o b is   d is tan ce   is   ess en tially   d is tan ce   m ea s u r b ased   o n   co r r elatio n s   b etwe en   v ar iab les  b y   wh ich   d if f er e n p atter n s   ca n   b id en tifie d   an d   an aly ze d .   I is   u s ef u way   o f   d eter m i n in g   t h s im ilar ity   o f   an   u n k n o wn   s am p le  s et  to   k n o wn   o n e.   Dis tan ce - b ased   ap p r o ac h es  ca lcu late  th d is tan c f r o m   p o in to   a   p ar ticu lar   p o in in   th d ata  s e t.  Dis tan ce   to   th m ea n ,   t h a v er ag d is tan ce   b etwe en   t h q u er y   p o in t   an d   all  p o in ts   in   th d ata  s et,   th m ax im u m   d is tan ce   b etwe en   th q u er y   p o in an d   d ata  s et  p o in ts   ar ex am p les  o f   th e   m an y   o p tio n s .   W h eth er   d ata  p o in t is clo s to   th d ata  s et  d e p en d s   o n   th u s er ' s   th r esh o ld   [ 34 ]   Ma h alan o b is   d is tan ce   is   d is t an ce   b etwe en   two   p o in ts   = ( 1 , 2 , , )   an d   = ( 1 , 2 , . . , )   in   th p   d im en s io n al  s p ac   is   d ef in ed   as ( 4 )   [ 35 ] .     ( , ) = ( ) 1 ( )   ( 4)     W h er e   ( , 0 ) = = 1   is   th n o r m   o f     an d   1   is   p o s itiv s em i - d ef in ite  co v ar ian ce   m atr ic .   Po in ts   with   th s am d is tan ce   o f   th o r i g in   =   s atis f y   1 = 2   wh ich   is   th g en er al  eq u atio n s   o f   an   ellip s o id   ce n ter ed   at  th e   o r ig in ,   an d   we   ar e   in ter ested   in   th d is tan ce   o f   a n   o b s er v atio n   f r o m   its   ce n ter   ̅   g iv en   b y   ( 5 ) .     ( , ̅ ) = ( ̅ ) 1 ( ̅ )   ( 5 )     T h m ah alan o b is   d is tan ce 's  d r awb ac k   is   th eq u al  ad d in g   u p   o f   th v a r ian ce   n o r m alize d   s q u ar ed   d is tan ce s   o f   th f ea tu r es.  I n   t h ca s o f   n o is e - f r ee   s ig n als,   th is   lead s   to   th e   b est  p o s s ib le  p er f o r m an ce .   B u Evaluation Warning : The document was created with Spire.PDF for Python.
        I SS N :   2722 - 2 5 8 6   I AE I n J   R o b   &   A u to m ,   Vo l .   1 0 ,   No .   4 Dec em b er   2 0 2 1 3 2 6     339   330   s u p p o s th f ea tu r is   d is to r te d   b y   n o is d u to   th s q u ar i n g   o f   th d is tan ce s .   I n   th at  ca s e,   s in g le  f ea tu r ca n   h av s u ch   h ig h   v alu th at  it  co v er s   th o t h er   f ea tu r es'   in f o r m atio n   an d   lead s   to   m is class if icatio n   [ 35 ]   T h er ef o r e,   to   f in d   class if icatio n   p r o ce d u r es  m o r r o b u s to   n o is e,   we  h av to   f in d   d is tan c m ea s u r e   th at  g iv es  less   weig h to   th n o is y   f ea tu r es  a n d   m o r e   weig h t   to   th e   clea n   f ea tu r es.  I t   is   r ea ch ed   b y   c o m p ar i n g   th d if f er en in p u f ea tu r es  to   d ec id wh ich   f ea tu r s h o u ld   b g iv en   less   weig h o r   ex clu d ed   an d   h av m o r e   weig h [ 36 ] [ 37 ] .     2 . 2 . 3 .   So un dex   di s t a nce   Ph o n etic  en co d in g   tech n iq u es  co n s id er   a   wo r d   p h o n etic  t r a n s cr ip tio n   f o r   cl ass if icatio n   a n d   co d in g   p u r p o s es,  s u ch   as  co r r ec tin g   ev en tu al   s p ellin g   m is tak e s   an d   class if y in g   p h o n etica l ly   d ig ital  lib r ar ies,   d ictio n ar ies,  an d   d atab ases   [ 38 ] .   T h p h o n etic  r e p r esen ta tio n   h as  s ev er al  ap p licatio n s .   First,  it  allo ws  to   s ea r ch   co n ce p ts   b ased   o n   p r o n u n ciatio n   r ath e r   th an   s p ellin g   [ 38 ] - [ 40 ]   T h s o u n d ex   p h o n etic  tech n i q u was  m ain ly   u s ed   in   ap p licatio n s   in v o lv in g   s ea r ch in g   p eo p le' s   n am es  lik air   r eser v atio n   s y s tem s ,   ce n s u s es,  an d   o th e r   task s   p r esen tin g   ty p in g   er r o r s   d u to   p h o n etic  s im ilar ity   [ 41 ] Sch ü tze   et  a l .   [ 4 2 ]   r ep o r ted   th at   th s o u n d ex   tech n iq u e   ev alu ates  ea ch   letter   in   th e   in p u t   wo r d   an d   ass ig n s   n u m er ic   v alu e   th at  co n v er ts   ea ch   wo r d   in t o   c o d m ad u p   o f   f o u r   el em en ts   [ 43 ] .   T h u s ,   s o u n d ex   u s es n u m er ic  co d es f o r   ea ch   letter   o f   th s tr in g   to   b co d if ied ,   as sh o w n   in   T a b le  1 .       T ab le  1 .   So u n d ex   p h o n etic  co d es f o r   E n g lis h   alp h ab e t   Nu m e ric Co d e   Letter   0   a,   i,   u,   e,   o,   y   1   b ,   p ,   f,   v   2   c ,   g ,   j ,   k ,   q ,   s,  x ,   z   3   d ,   t   4   L   5   m ,   n   6   r       2 . 2 . 4 .   N - g ra m s   dis t a nce   An   N - g r am   is   s u b - s eq u en ce   o f   item s   f r o m   g iv en   s eq u en ce .   N - g r am s   ar u s ed   in   v ar io u s   ar ea s   o f   s tatis tical  n atu r al  lan g u ag p r o ce s s in g   a n d   g en etic  s e q u en ce   a n aly s is .   T h item s   in   q u esti o n   ca n   b e   ch ar ac ter s ,   wo r d s ,   o r   b ase  p air s   ac co r d in g   to   th a p p lica tio n .   Fo r   ex am p le,   th is   N - g r am   o u t p u t c an   b u s ed   f o r   s tatis t ical  m ac h in tr an s latio n   an d   s p ell  ch ec k in g   [ 44 ] .   Patter n   ex tr ac tio n   is   th p r o ce s s   o f   p ar s in g   s eq u en ce   o f   item s   to   f in d   o r   ex tr ac p ar ticu lar   p atter n   o f   item s .   Patter n   len g th   ca n   b f ix ed ,   as  in   th n - g r am   m o d el,   o r   it  ca n   b v ar ia b le.   Var ia b le - len g th   p atter n s   ca n   b d ir ec tiv es  to   s p ec if ic  r u les,  lik r eg u lar   ex p r ess io n s .   Ho wev er ,   th e y   ca n   also   b r a n d o m   an d   d e p en d   o n   th co n tex t a n d   p atter n   r ep etiti o n   in   th e   p atter n s   d ictio n a r y   [ 45 ] - [ 47 ] .       3.   P RO P O SE ADAP T I V E   L ANG UAG E   P RO C E SS I NG   UNIT   T h p r o p o s ed   ap p r o ac h ,   s h o w n   in   Fig u r 4 ,   in v o lv es tex t c lass if ier s ,   wh er th ey   class if y   tex t in p u t to   its   co r r esp o n d in g   w o r d   ta g g in g .   T h s y s tem   im p lem en t s   NL P HM M ,   an d   B ay esi an   as  an   ad ap tiv co m b in atio n   m o d u le.   T h e   H MM   an d   B ay esian   Netwo r k   ar im p lem e n ted   t o g eth er   to   co v e r   th e   v a r io u s   len g th s   o f   th in p u tex t,  in   wh ich   th B ay esian   Netwo r k   h an d les  lo n g e r   s en ten ce s ,   wh ile  HM h an d les   s h o r ter   s en ten ce s .   Su ch   an   ad a p tiv s elec tio n   o f   class if ier s   in   th p r o p o s ed   s y s tem   allo ws f o r   lo n g er   s en ten ce s   to   b p er f o r m e d   ac cu r ately .   T h p r o p o s ed   s y s tem   lan g u a g p r o ce s s in g   u n it  co n tai n s   wo r d   id en tific atio n   an d   tag g i n g   an d   an   ad ap tiv class if ier ,   au to m atic ally   s elec tin g   th class if ier ,   e ith er   HM o r   B ay esian   Netwo r k ,   b ased   o n   th e   n u m b er   o f   wo r d s   d etec ted .   T h p r o p o s ed   s y s tem   is   e v alu at ed   b ased   o n   its   s u cc ess   r ate  a n d   p r o ce s s in g   tim e .   T h s u cc ess   r ate  in d icate s   wh eth er   th o u tp u f r o m   th l an g u ag e   p r o c ess in g   u n it  ( L P U)   co n tain s   all  th e   im p o r tan wo r d s   with   th co r r ec s tr u ctu r ( s u b ject - p r e d ica te - o b ject )   o r   n o t.  I f   all - im p o r t an wo r d s   d etec ted   f r o m   th s p ee ch   ar in cl u d e d   in   th o u tp u t,  th en   th s y s tem   is   co n s id er ed   s u cc es s .   Oth er wis e,   it  i s   c o n s id er ed   f ailu r e.   T h p r o c ess in g   tim is   d ef in ed   as  th L PU ' s   m ea s u r ed   tim e,   s tar tin g   f r o m   in p u ttin g   d ata  u n til o b tain in g   th o u tp u t f r o m   th L PU     Evaluation Warning : The document was created with Spire.PDF for Python.
I n J   R o b   &   A u to m   I SS N:  2722 - 2 5 8 6       A d a p tive  la n g u a g p r o ce s s in g   u n it fo r   Ma la ysia n   s ig n   la n g u a g s yn th esiz er   ( Ha r is   A l Q o d r i Ma a r if )   331       Fig u r 4 .   B lo ck   d iag r am   o f   th p r o p o s ed   ad ap ti v lan g u ag p r o ce s s in g   u n it       3 . 1 .   N - g ra m s   I n   co m p u tatio n al  lin g u is tics ,   s eq u en ce   o f     co n tig u o u s   wo r d s   is   ca lled   N - g r a m   [ 46 - 48 ] .   T h e   s y s tem   im p lem en ts   c o m b in a tio n   o f   n - g r am s   an d   NL P .   T h e   p r o p o s ed   s y s tem ,   L PU ,   is   b as ed   o n   n - g r am s   an d   NL P.  Fig u r 5   s h o ws  th at  th e   o u tp u f r o m   N - g r am s   is   f ed   to   th L PU.  L et  th in p u to   t h L PU  b o n   th g r o u p   o f   w o r d s   ( = 2 ) .   NL s u b s eq u en tly   p r o ce s s es  th p r o ce s s ed   tex in p u t   to   g et  th e   p r o p er   s en ten ce s   r ep r esen ted   b y   a   p a r ticu lar   s ig n   lan g u ag e' s   s ig n s .   I n   a n   N - g r am ,   s en ten ce s   ar e   tr u n ca te d   to   th len g th   ( 1 )   an d   its   tr u n ca tio n   p r o b ab ilit y   i s   d ef in ed   as ( 6 ) .     ( | 1 , 1 ) = ( | + 1 , 1 )     ( 6 )     Sin ce   = 2 ,   it  h as  b ee n   ca lled   b ig r am .   I n   s u ch   ca s e,   th - g r am   co n d itio n al  p r o b a b ilit ies   ( | 1 )   ca n   b esti m ated   f r o m   r aw  t ex ( 1 )   b ased   o n   th e   r elativ f r e q u en cy   o f   wo r d   s eq u e n ce s   ( 1 )   as   ( 7 )   an d   ( 8 ) .     ( | 1 ) = ( 1 ) ( 1 )     ( 7 )     ( | + 1 1 ) = (  + 1 1 ) (  + 1 1 )     ( 8 )     3 . 2 .   Na t ura la ng ua g pro ce s s ing   T h L PU   p er f o r m s   th tex t - tr an s lated   p r o ce s s   ac co r d in g   to   Sig n   L an g u a g e' s   g r am m atica r u les,  in   th is   ca s e,   th Ma lay s ian   s ig n   lan g u ag ( MSL ) .   First,  th p r o p o s ed   m et h o d   i d en tifie s   th "im p o r tan t"  wo r d s   th at  th p r o p o s ed   SL  s y n th esizer   s y n th esizes.  T h en ,   it  u tili ze s   th "tag g in g "   p r o ce s s ,   wh i ch   lab els  th in p u t   wo r d   in to   s p ec if ic  s tr u ct u r ca teg o r ies,  i.e . ,   s u b ject,   p r ed icat e,   an d   o b ject  (S - P - O) .   NL P   is   th ess en tia l   p r o ce s s   in   t h L PU.   Fig u r e   5   s h o w s   th d etail  o f   th NL P.   I t   in v o lv es  a   to k en izer ,   POS  tag g er ,   n am e d   en tity   ex tr ac tio n ,   s tem m er ,   an d   lex ical  tr an s f er .   T h s tep s   ar r eq u ir e d   to   en h an ce   th e   tr an s latio n   an d   th o u tp u o f   th s y s tem .             Fig u r 5 .   W o r d   p r o ce s s in g   o f   t h n atu r al  lan g u ag e   p r o ce s s in g         To   S en ten ce   L en g th   C a lcu la to r Token i ze r P O Tagge r N am ed  Ent i t y E xtr acti on St em m er L exi ca l Trans f er D at aba s e T ext  I n p u t Evaluation Warning : The document was created with Spire.PDF for Python.
        I SS N :   2722 - 2 5 8 6   I AE I n J   R o b   &   A u to m ,   Vo l .   1 0 ,   No .   4 Dec em b er   2 0 2 1 3 2 6     339   332   3 . 2 . 1 .   T o k enizer   a nd   P O t a g g er   T o k en is in g   is   b asic  o p e r atio n   o f   NL th at  is   a p p lied   to   an   in p u t   tex t.   I t   b r ea k s   u p   a   s tr ea m   o f   ch ar ac ter s   in to   wo r d s ,   p u n ctu a tio n   m ar k s ,   n u m b e r s ,   an d   o th e r   d is cr ete  item s .   F ig u r 6   s h o ws  th f lo wch ar o f   th to k e n izer .   T h is   NL s tag d o es  n o class if y   g r am m ati ca l   ca teg o r ies  o f   th in p u te x t.  I t   also   d o es  n o t   co n s id er   a n y   in f o r m atio n   o n   t h s y n tactic  s tr u ct u r o f   th t ex o r   th e   ty p e   o f   wo r d s   in   it  ( e. g . ,   wh et h er   t h e   wo r d s   ar v e r b s   an d   n o u n s ) .   T h in p u t o f   th e   to k e n izer   is   th e   id en tifie d   wo r d s   ( tex in p u t) .   I n   co m p ar is o n ,   t h e   o u tp u is   th co r r esp o n d in g   to k en ized   wo r d s .   T h last   wo r d   is   al s o   tag g ed   to   in d icate   th at  it  is   th last   to k en   f o r   th c u r r e n t in p u t,   an d   u s u a lly ,   th last   wo r d   is   n o u n .             Fig u r 6 .   Flo wch ar o f   to k en iz er       T h POS  tag g er   allo ws  class i f y in g   t h wo r d s   in to   n in e   tr ad itio n al  wo r d   class es,  i.e . ,   n o u n ,   v er b ,   ad jectiv e,   ad v er b ,   p r ep o s itio n ,   ar ticle,   in ter jectio n ,   p r o n o u n ,   an d   co n ju n ctio n .   I n   a d d itio n ,   ea ch   wo r d   e n ter in g   th POS  tag g in g   is   lab eled   ac co r d in g   to   its   s tatu s   in   s en te n ce .   T h u s ,   i co n tr ib u tes  to   th e   tr an s latio n   p r o ce s s   d o wn s tr ea m   [ 49 ] [ 50 ]   E ac h   wo r d   e n ter in g   t h POS  T ag g in g   b lo ck   is   lab eled   ac c o r d in g   to   its   s tatu s   in   s en ten c e.   Fig u r 7   s h o ws  th ta g g in g   p r o ce s s   wh er ea ch   wo r d   is   tag g ed   ac c o r d in g   to   its   p ar ticu lar   lab el.   E a ch   to k en   is   tag g ed   with   its   co r r esp o n d in g   SP c ateg o r y   ( i.e . ,   as  s u b ject,   p r e d icate ,   o r   o b ject ) .   T h p r ep o s i tio n s   an d   o th er   n o n - im p o r tan wo r d s   ar n o tag g e d   an d   th u s   ar d is ca r d ed .   Fo r   th s am ex am p le  as  b ef o r e ,   th tag g ed   to k en   as   to k en   1   as  "S"  ( s u b ject ) ,   to k en   2   as  "P"  ( p r ed icate ) ,   to k en   3   as  "O"   ( o b ject ) ,   to k en   4   as  " u n k n o wn , an d   to k en   5   as "O ( o b ject ).           Fig u r 7 .   Flo wch ar o f   POS  tag g er       3 . 2 . 2 .   Na m ed  ent it y   ex t ra ct io n   Nam ed   en tity   ex tr ac tio n   id en tifie s   ty p es  o f   tag g ed   wo r d s ,   s u ch   as  n am es  o f   p er s o n s v er b s ,   an d   r em o v es  wo r d s   with   u n k n o wn   tag g ed   t o k en s ,   as  s h o w n   in   Fig u r 8 .   T h e   s y n tactic  an aly s is   allo ws  th e   id en tific atio n   o f   th SP s y n t ac tic  co m p o n en ts   o f   t h s en te n ce .   Fo r   e x am p le,   if   th t o k en ized   wo r d   is   n o u n ,   th s y n tactic  an aly s is   v alid ates th ap p r o p r iaten ess   o f   th ta g   g iv en   to   th to k en ized   w o r d s .           Fig u r 8 .   Flo wch ar o f   th e   n a m ed   en tity   ex tr a ctio n   an d   s y n t ac tic  an aly ze r       S tart T ext  Inp u t T ok enizing  Ea ch  W o rd L abelli ng   T o k en End S ta rt T agg ing   T o k en  Inp u t End Database L a st  T oke n? Receive  Inp u T o k en Y es No Start T ag g ed   T o k en   Inp u t Sy n tactic   An aly zer End V e r ify   T a g g e T oke n? Rem o v al  T o k en   = “ Un k n o wn Y es No Evaluation Warning : The document was created with Spire.PDF for Python.
I n J   R o b   &   A u to m   I SS N:  2722 - 2 5 8 6       A d a p tive  la n g u a g p r o ce s s in g   u n it fo r   Ma la ysia n   s ig n   la n g u a g s yn th esiz er   ( Ha r is   A l Q o d r i Ma a r if )   333   Fo r   th s am e   ex am p le,   th e   p r o ce s s ed   to k en   b y   NE E   ( af ter   POS  tag g er )   is   r esu lted   as  to k en   1   as  "S"   ( s u b ject ) ,   to k e n   2   as  "P"  ( p r ed icate ) ,   to k en   3   as  "O"   ( o b ject ) ,   an d   to k en   5   as  "O"   ( o b ject ) .   T h en ,   af ter   p ass in g   th Sy n tactic  An al y ze r   p r o ce s s ,   th r esu lted   to k e n   is   to k en   1   as  "O"   ( o b ject ) ,   to k e n   2   as  "P ( p r e d icate ) ,   t o k en   3   as "S"  ( s u b ject ) ,   an d   to k en   5   as "S"  ( s u b ject ).     3 . 2 . 3 .   Ste m m er   a nd   lex ica l t ra ns f er   T h s tem m er   is   u s ed   to   id e n tify   b asic  f o r m s   ( s tems )   o f   wo r d s   allo win g   to   in f er   g en d er   in f o r m atio n   an d   th n u m b e r   o f   i n p u wo r d s .   I is   aim ed   to   m ap   s p ee c h   ( tex t)   in   p ar ticu lar   lan g u ag to   co r r esp o n d in g   s ig n   in   th tar g et  SL.   I u s es  lan g u ag d ictio n ar y   to   p e r f o r m   an   ac cu r ate  r ed u ctio n   to   r o o wo r d s .   Fig u r 9   s h o ws  th f lo wch ar f o r   th s tem m in g   p r o ce s s .   Stem m in g   u s es  o r d in ar y   p atter n   m atch in g   to   s tr ip   s u f f ix es  o f   to k en s   s im p ly   ( e. g . ,   r e m o v e   " - s , an d   r em o v " - i n g , ",   in   th wo r d   en d in g s ) ,   th u s   "stri p p in g   o f f "   ty p ical   g r am m ar .   I n   th e   p r o p o s ed   s y s tem ,   th e   s tem m er   is   u s ed   to   id en tify   v e r b s   o n ly ,   tag g e d   as  P r e d icate .   T h is   s tag e   is   les s   u s ed   in   s o m lan g u ag e s   ( in clu d in g   B ah asa  Me lay u ) ,   wh er n o   ten s e - d ep e n d en ch a n g es  o f   r o o wo r d s   ar n ee d ed .   Ho wev er ,   af f ix es  m ay   b e   u s ed   to   g iv e   ex tr a   e m p h asis   to   th e   m ea n in g   o f   th r o o wo r d s .   Als o ,   th ey   m ig h b a p p lied   to   d e r iv n ew  wo r d s   ( u s u ally - v e r b s )   t h at  h av d if f e r en m ea n i n g s   th o u g h   s till   r elate   to   th r o o o n es.  Fo r   ex am p le,   t o k en   2   "d im a k an is   tag g ed   as  "P."   T h tag g in g   "P"  r ef e r s   to   th v er b ,   wh e r it  r em o v es  "d i"  as  p r ef ix   f o r   t h wo r d   "m ak a n . to k en   2   c h an g es  in to   "m ak an an d   with   th s am tag   "P"  b y   h av in g   t h is   p r o ce s s .   T h lex ical  tr an s f er   in v o lv es  o n e - to - o n e   m ap p i n g   o f   th e   in p u s en ten ce s   to   t h eir   co r r esp o n d in g   m ea n in g .   I r eq u ir es   r ef er r in g   to   t h d ictio n ar y   an d   wo r d   d atab ase,   s ee   in   Fig u r 1 0 Sp ec if ically ,   th e   s tag allo ws  d is tin g u is h in g   wo r d s   h av in g   m u ltip le  m ea n in g s .   I f   th wo r d s   h av e   two   o r   m o r m ea n i n g s ,   th e   m ea n in g   b ased   o n   t h SP tag g in g   in f o r m atio n   o f   t h s en ten ce   is   s elec ted .           Fig u r 9 .   Flo wch ar o f   th e   s tem m in g   p r o ce s s           Fig u r e   1 0 .   Flo wch ar t o f   th le x ical  tr an s f er       3 . 3 .   Sente nce  leng t h c a lcula t o a nd   a da ptiv s elec t io n o f   t he  cla s s if ier   T h s en ten ce   le n g th   ca lcu lato r   ( SLC)  is   s tr in g   p r o ce s s in g   th at  ca lcu lates  th n u m b e r   o f   wo r d s   in   a   s en ten ce .   I n   th is   r esear ch ,   an y   in p u t g iv e n   to   th s y s tem s   is   lim ited   to   b o n co m p lete  s en ten ce ,   an d   t h wo r d   co u n is   th n u m b er   o f   wo r d s   in   th in p u s en ten ce .   Fig u r 1 1   s h o ws  th f lo wch ar f o r   th SLC.  I n   ad d itio n ,   th p r o p o s ed   s y s tem   o f f er s   an   ad ap tiv s elec tio n   o f   th clas s if ier ,   allo win g   f o r   s witch in g   b etwe en   HM an d   B ay esian   n etwo r k s   au to m atica lly .     T h HM an d   B ay esian   Netwo r k   id en tif y   th s en ten ce   an d   p r o ce s s   it  s u ch   th at  it  f o llo ws  th p r e - ass ig n ed   o r d er ,   i.e . ,   s u b ject,   p r ed icate ,   an d   o b ject  ( SP O) ,   b ased   o n   th n u m b er   o f   wo r d s   in   th s en ten ce .   B ased   o n   th e   ex p e r im en tal  r esu lt,  HM wo r k s   f o r   s h o r t   s en ten ce s   ( th r esh o ld   =   7   w o r d s ) ,   a n d   B ay esian   n etwo r k s   ap p lies   f o r   lo n g e r   s en ten ce s   ( m o r th an   7   wo r d s ) .   On ce   th r esu ltin g   s en ten ce   h as  b ee n   ar r an g e d   in to   th SP o r d er ,   th s en ten ce   is   f ed   in to   th a n im atio n   p a r t,  wh ich   allo ws th an im ated   av atar .     S ta rt T oke a V e r b? W ord =   ( Pre f ix ) - St e m - ( Suf f ix ) C he c P re fix R e move  P re fix C he c Suf f ix Re move   Suf f ix End R e c e ive  I nput  T oke n Y es No Y es No No Y es No S ta rt Receive  Inp u T o k en Ch eck M eanin g   o f   The  W o rds D a ta ba se Select  Pr o p er   Meanin g En d L a st  T oke n? Y es Evaluation Warning : The document was created with Spire.PDF for Python.
        I SS N :   2722 - 2 5 8 6   I AE I n J   R o b   &   A u to m ,   Vo l .   1 0 ,   No .   4 Dec em b er   2 0 2 1 3 2 6     339   334           Fig u r 1 1 .   Flo wch ar t o f   th s en ten ce   len g th   ca lcu la to r       HM M   s tate s   an d   tr an s itio n   m atr ix   ar d esig n ed   to   o r g an ize  r esu lts   in to   Su b ject,   Pre d icate ,   an d   Ob ject  p atter n s .   HM in v o lv es  th r ee   s tates  an d   s in g le  o u tp u t.   I h as  t h r ee   o b s er v atio n   p r o b ab ilit y   d is tr ib u tio n s   B   a n d   th r ee   s tate  tr an s itio n   p r o b ab ilit i es  A .   f o r   ea ch   s tate,     em its   s in g l o u tp u .   T h e   m ath em atica l m o d el  is   d escr ib ed   as f o llo ws:     a)   λ = { A , B , π }   b)   =   { 11 , 12 , 22 , 23 , 33 }   c)   = {  ,    ,  }     T h in itial c o n d itio n   π   is   d ef in ed   as th b asic w o r d s ,   wh ich ,   i n   o u r   ca s e,   h as th r ee   wo r d s ,   i.e . ,   s u b ject  ( S),   p r ed icate   ( P),   an d   o b ject   ( O) .   " s u b ject is   d ef in ed   as  p er s o n   o r   s o m eth i n g   wh ic h   d o es  th ac tio n .   "Pr ed icate is   class if ied   as  an   ac tiv v er b   th at  i n d icate s   th ac tiv ity   wh ich   is   d o n b y   t h s u b ject.   Fin ally ,   "o b ject"   is   class if ied   as  p er s o n   o r   o b ject,   w h ich   is   t h s u b j ec t's   g o al.   T h SP s tr u ctu r e   i s   p r o p o s ed   to   ea s th s y n th esizer   p r o ce s s ,   wh er th co m p lete  s en ten ce   s h o u ld   co n s is t   o f   th ese  th r ee   b asic e le m en ts   SP O   T h B ay esian   n etwo r k   is   ap p li ed   to   co n d itio n   wh er e   th n u m b er   o f   wo r d s   is   m o r th a n   7 .   T h en ,   th e   jo in p r o b ab ilit y   d is tr ib u tio n   r ep r esen ts   th im p lem e n tatio n   o f   th B ay esian   n etwo r k .   I n   th is   ca s e,   th e   p r o b a b ilis tic  d is tr ib u tio n   is   t h r elatio n s h ip   am o n g   s u b ject  ( S),   p r ed icate   ( P),   an d   o b ject  ( O) .   T h jo in t   p r o b a b ilit y   d is tr ib u tio n   ca n   b e   wr itten   as ( 9 ) .     ( , , ) = ( ) ( / ) ( | , )   ( 9 )     T h C PD is ca lcu lated   f r o m   th jo in t p r o b ab ilit y ,   an d   th B a y esian   n etwo r k   c o n s is ts   o f   class   v ar iab les an d   f ea tu r v ar ia b les th at  ar r ea d i ly   ap p licab le  to   t h class if icati o n   task .   T h e   S ( s u b ject )   is   s elec ted   as th class   v ar iab le,   an d   th ca lcu latio n   f o r   th p r o b a b ilit y   o f     =     g iv en   a n y   o b s er v e d   v alu e   s et  ( , )   as  ( 1 0 ) .     ( = | , ) =   ( = , , ) ( = , , ) +   ( =  , , )   ( 1 0 )     W h er e   ( = | , )   an d   ( = , , )   ca n   b c o m p u te d   ef f icien tly   u s in g   ( 9 ) .   Similar ly ,   I t   ca n   b a p p lied   to   ca lcu late  ( = , , ) .   T h en   th e   v alu e   o f   is   d eter m in ed   b y   co m p u tin g   ( = , , )   an d   ( = , , ) On ce   th r esu ltin g   s en ten ce   is   ar r an g ed   in to   th SP o r d er ,   it  is   f ed   in to   th an im atio n   av atar   ( o r   r o b o tic  m a n ip u lato r ) ,   o u tp u tti n g   it in   th c h o s en   SL  lex is .       4.   E XP E R I M E N T A L   RE SUL T S   AND  D I SC USS I O N   4 . 1 .   E x perim ent a s et up   T h d ata  u s ed   is   tex t - b ased   in p u t,  wh ich   is   co n s id er e d   s im p le  Ma lay   s en ten ce .   Ho wev er ,   co m b in in g   th n u m b er   o f   wo r d s   in   o n s en ten ce ,   f r o m   th r ee   to   ten ,   in d icate s   in p u s en t en ce s   f r o m   s im p le  s en ten ce s   in to   m o r co m p lex   s en ten ce s .   T ab le  2   s h o ws 1 3   s am p le  d ata  s elec ted   f r o m   th 1 3 0   d ata  u s ed   in   th is   ex p er im en t.  T h s im p le  s tr u ctu r co n s is ts   o f   o n ly   SP s tr u ctu r e,   wh er ea s   th m o r co m p lex   s en ten ce s   h av SP s tr u ctu r an d   r a n d o m   o r d er   o f   s en te n ce   s tr u ctu r es.  T h latter   is   in tr o d u ce d   t o   e v alu ate  th p r o p o s ed   SL   s y n th esizer   tech n iq u b ased   o n   th p r o ce s s in g   tim an d   s u cc ess   r ate.   T h p r o p o s ed   s y s tem   h as   b e en   d e v elo p ed   u s in g   Ma tlab   2 0 1 8 a   an d   r u n n i n g   at   I n tel   i5   5 2 0 0 U   p r o ce s s o r   an d   4   GB   R AM   to   p r o ce s s   th o u tp u t f r o m   s p ee ch   d ata.   T o   ev alu ate  th p er f o r m a n ce   o f   th s y s tem ,   we  p er f o r m e d   f o u r   ty p es  o f   co m p ar is o n s .   T h f ir s co m p ar is o n   in v o lv es  ev alu atin g   f o u r   d if f er en e d it  d is tan ce   m eth o d s ,   n am el y   L ev en s h tein ,   s o u n d ex ,   N - g r a m s ,   an d   m ah alan o b is .   T h s ec o n d   co m p ar is o n   co n s is ts   o f   th s elec tio n   o f   th e   n u m b e r   o f   p ar a m eter s   u s ed   f o r   th s elec ted   ed it d is tan ce .   T h n ex co m p ar is o n   is   m ad to   ev alu ate  th NL an d   HM M' s   p er f o r m an ce   w ith   NL an d   B ay esian   Netw o r k .   T h e n ,   we  ca n   St a r t Rece i v i ng  Token  L a st  T a g ? L i s t i ng  Token,  L abe l s  Toke Count i ng  N um ber   of R ece i v ed   T ok en s En d Y es No Evaluation Warning : The document was created with Spire.PDF for Python.
I n J   R o b   &   A u to m   I SS N:  2722 - 2 5 8 6       A d a p tive  la n g u a g p r o ce s s in g   u n it fo r   Ma la ysia n   s ig n   la n g u a g s yn th esiz er   ( Ha r is   A l Q o d r i Ma a r if )   335   d eter m in th t h r esh o ld   n u m b er   o f   wo r d s   in   th in p u s e n ten ce s   f o r   th e   ad ap tiv e   class if icatio n .   Fin ally ,   th e   last   ev alu atio n   is   o n   th e d it d i s tan ce s   with   th ad ap tiv s y s tem   o f   th class if ier .       T ab le  2 .   Sam p le  in p u s elec ted   f o r   la n g u a g p r o ce s s in g   u n it   No   S e l e c t e d   I n p u t   N u mb e r   o f   W o r d s   1   S a y a   M a k a n   N a s i   ( I   e a t   ri c e )   3   2   N a si   S a y a   M a k a n   ( R i c e   I   e a t )   3   3   D i a   M a k a n   N a si   ( H e / s h e   e a t s r i c e )   3   4   D i a   P e r g i   k e   P a s a r   ( H e / sh e   g o e t o   M a rk e t )   4   5   K e   P a sar   S a y a   P e r g i   ( T o   m a r k e t   I   g o )   4   6   D i a   M a k a n   N a si   d i   P a s a r   ( H e / s h e   e a t s   ri c e   a t   m a rk e t )   5   7   S a y a   d a n   D i a   M a k a n   N a s i   ( I   a n d   H e   e a t   ri c e )   5   8   N a si   S a y a   d a n   D i a   M a k a n   ( R i c e   I   a n d   h e / s h e   e a t )   5   9   S a y a   D i a   P e r g i   M a k a n   P a sar   N a si   ( I ,   h e   g o   e a t   m a rke t   r i c e )   6   10   S a y a   M a k a n   N a s i   d a n   P e r g i   k e   P a sar  ( I   e a t   r i c e   a n d   g o   t o   m a rk e t )   7   11   S a y a   M a k a n   N a s i   D a n   M e mb e l i   B u a h   D i   P a s a r   ( I   E a t   Ri c e   a n d   B u y   a   Fru i t   a t   T h e   M a rk e t )   8   12   S a y a   d a n   D i a   M a k a n   N a s i   d a n   B u a h   D i   P a sar   ( I   a n d   H e / S h e   E a t   Ri c e   a n d   Fru i t   i n   T h e   Ma r k e t )   9   13   S a y a   M a k a n   N a s i   d a n   P e r g i   k e   P a sar  d i   P a g i   H a r i   ( I   E a t   R i c e   a n d   G o   t o   t h e   Ma rke t   i n   T h e   M o r n i n g )     10       4 . 2 .   Select io n o f   edit   dis t a nce  a nd   it s   cha ra ct er is t ics   E ac h   ed it  d is tan ce   is   u s ed   in   t h p r o p o s ed   s y s tem ,   an d   th p er f o r m an ce   o f   ea c h   is   co m p ar ed   b ased   o n   its   s u cc ess   r ate  an d   p r o ce s s in g   tim e.   T h s elec tio n   is   p er f o r m ed   to   d eter m in e   th m o s ef f ec tiv ed it   d is tan ce   an d   its   ch ar ac ter is tics   v alu e.   T h ed it   d is tan ce ,   w h ich   p r o v id es  t h h i g h est  s u cc ess   r ate  an d   th e   s h o r test   p r o ce s s in g   tim e,   is   s e lecte d .   T h e v alu atio n   is   ca r r i ed   o u t   b y   co m p a r in g   th p r o c ess in g   tim o f   ea c h   ed it  d is tan ce .   I is   n ec es s ar y   f o r   g ettin g   f ast  r esp o n s f o r   th wh o le  s y s tem   f o r   th SL  s y n th esizer .   T h co m p ar is o n   is   p er f o r m e d   b y   v ar y in g   th e   n u m b er   o f   wo r d s   in   a   s en ten ce .   T h e   co m p ar is o n   aim s   t o   f i n d   th e   s ig n if ican ed it  d is tan ce   to   s u p p o r t h SL  s y n th es izer ' s   p r o p o s ed   lan g u ag p r o ce s s in g   u n it.  I n   th is   r esear ch ,   d eter m in in g   th m o s s u itab le  ed it  d is tan ce   tech n iq u is   k e y   f o r   th p r o p o s ed   s y s tem   to   p r o v id th f astes t   p r o ce s s in g   tim an d   th h ig h e s t su cc ess   r ate.   Fig u r 1 2   s h o ws  th e   p er f o r m an ce   o f   ea ch   ed it  d is tan ce   with   th v a r io u s   n u m b er   o f   wo r d s   in   a   s en ten ce .   I in d icate s   th at  L ev en s h tein ,   s o u n d ex ,   an d   N - g r am s   p r o v id ed   s im ilar   p r o c ess in g   tim es.  T h s im ilar ity   o f   p r o ce s s in g   tim r esu ltin g   f r o m   th r ee   ed it   d is tan ce s   i s   ex p ec ted   d u to   th o s s im ilar   ch ar ac ter is tics .   As  n - g r am s   h av p r o v id e d   th f astes p r o ce s s in g   tim th an   m ah ala n o b is   an d   s o u n d ex   d is tan ce ,   N - g r am s   h a v b ee n   s elec ted   to   b im p lem e n ted   in   t h p r o p o s ed   s y s tem ' s   lan g u ag p r o ce s s in g   u n it.   Fig u r 1 3   s h o ws  th e   tim c o m p ar is o n   f o r   L e v en s h tein ,   s o u n d e x ,   a n d   n - g r am s .   L ev en s h tein   an d   s o u n d ex   d is tan ce   r esu lted   in   lo n g er   p r o ce s s in g   tim t h an   n - g r a m s   d is tan ce .   I t   is   d em o n s tr ated   th at  L ev en s tein ,   s o u n d ex ,   an d   m a h alan o b is   h a v a   lo n g er   p r o ce s s in g   tim th an   n - g r am s .   N - g r am s ,   at  =   2 ,   p r o v id e   ef f icien p r o ce s s in g   ti m co m p a r ed   to   o th er   ed it  d is tan ce s .   T h er ef o r e,   N - g r am s   ar im p lem en ted   f o r   th lan g u a g p r o ce s s in g   u n it.           Fig u r 1 2 .   T im co m p ar is o n   f o r   f o u r   ed it  d is tan ce   in   v ar io u s   n u m b e r   o f   w o r d s     Evaluation Warning : The document was created with Spire.PDF for Python.