I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   8 ,   No .   5 Octo b e r   2 0 1 8 ,   p p .   3 9 2 3 ~3 9 32   I SS N:  2 0 8 8 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v8 i 5 . p p 3 9 2 3 - 39 32          3923       J o ur na l ho m ep a g e h ttp : //ia e s co r e . co m/ jo u r n a ls /in d ex . p h p / I JE C E   T w o  Lev el Disa m big ua tion M o del f o r Q uery  T ra nsla tion       P ra t ibh a   B a j pa i 1 P a rul V er m a 2 ,   Sy ed  Q .   Abba s 3   1, 2 De p a rtm e n o f   In f o r m a ti o n   T e c h n o lo g y ,   Am it y   Un iv e rsit y ,   In d ia   3 De p a rtme n o f   Co m p u ter S c ien c e ,   Am b a li k a   In stit u te  o f   M a n a g e m e n a n d   T e c h n o l o g y ,   In d ia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Oct   5 ,   2 0 1 7   R ev i s ed   J an   16 ,   2 0 1 8   A cc ep ted   J u l   1 9 ,   2 0 1 8     S e lec ti o o f   th e   m o st  su it a b le  tr a n sla ti o n   a m o n g   a ll   tran sla ti o n   c a n d id a tes   re tu rn e d   b y   b il in g u a d ictio n a ry   h a a lw a y b e e n   q u iet  c h a ll e n g i n g   tas k   f o r   a n y   c ro ss   lan g u a g e   q u e r y   tran sla ti o n .   Re se a rc h e rs  h a v e   f r e q u e n t ly   tri e d   to   u se   w o rd   c o - o c c u rre n c e   sta ti stics   to   d e term in e   th e   m o st  p ro b a b le  tran sla ti o n   f o u se q u e ry .   A l g o rit h m u sin g   su c h   sta ti stics   h a v e   c e rtain   sh o rtco m in g s,   w h ich   a re   f o c u se d   in   th is  p a p e r.   W e   p ro p o se   a   n o v e m e th o d   f o a m b ig u it y   re so lu ti o n ,   n a m e d   „tw o   lev e d isa m b ig u a ti o n   m o d e l‟.   A f irst  lev e l   d isa m b ig u a ti o n ,   th e   m o d e p ro p e rl y   w e i g h th e   im p o rtan c e   o f   tran sla ti o n   a lt e rn a ti v e o f   q u e r y   ter m o b tain e d   f ro m   th e   d ictio n a ry .   T h e   im p o rtan c e   f a c to m e a su re s   th e   p ro b a b il i ty   o a   tran sla ti o n   c a n d id a te  o f   b e in g   s e lec ted   a s   th e   f in a tran sla ti o n   o f   a   q u e ry   term .   T h is  re m o v e th e   p ro b lem   o f   tak in g   b in a ry   d e c isio n   f o tran sla ti o n   c a n d id a tes .   A se c o n d   lev e d isa m b ig u a ti o n ,   th e   m o d e targ e ts  th e   u se q u e ry   a a   sin g le  c o n c e p a n d   d e d u c e th e   tran sla ti o n   o f   a ll   q u e ry   term sim u lt a n e o u sly ,   tak in g   in to   a c c o u n t h e   w e ig h ts   o f   tran sla ti o n   a lt e rn a ti v e a lso .   Th is  is  c o n trary   to   p re v io u re se a r c h e w h ich   se lec tran sla ti o n   f o e a c h   w o rd   in   so u rc e   lan g u a g e   q u e ry   in d e p e n d e n tl y .   T h e   e x p e ri m e n tal  re su lt   w it h   En g li sh - Hin d i   c ro ss   lan g u a g e   in f o rm a ti o n   re tri e v a sh o w th a th e   p r o p o se d   tw o   lev e d isa m b ig u a ti o n   m o d e a c h iev e d   7 9 . 5 3 a n d   8 3 . 5 0 %   o f   m o n o li n g u a l   tran sla ti o n   a n d   2 1 . 1 1 %   a n d   1 7 . 3 6 im p ro v e m e n t   c o m p a re d   to   g re e d d isa m b ig u a ti o n   stra teg ies   in   term o f   M A P   f o sh o rt  a n d   l o n g   q u e ries   re sp e c ti v e l y .   K ey w o r d :   C o h er en ce   m o d el   E n g l is h - h i n d i c r o s s   lan g u ag i n f o r m atio n   r etr ie v al   Q u er y   tr a n s lat io n   d is a m b i g u at io n     Co p y rig h ©   2 0 1 8   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   P r atib h B a j p ai,     Dep ar t m en t o f   I n f o r m atio n   T e ch n o lo g y ,     Am it y   U n i v er s it y ,     L u ck n o w ,   I n d ia .   E m ail: p r atib h ab aj p ai@ g m ail. co m       1.   I NT RO D UCT I O N     T h t w o   co m m o n l y   u s ed   li n g u i s tic  r eso u r ce s   u s ed   f o r   q u er y   tr an s latio n   ar p ar allel  c o r p o r an d   b ilin g u al  d ict io n ar ies.  A l g o r i th m s   b ased   o n   p ar allel  co r p o r esti m ate  t h tr a n s la tio n   o f   q u er y   w o r d s   b y   f i n d in g   th as s o ciatio n   b et w ee n   w o r d s   o f   t h s o u r ce   lan g u a g an d   w o r d s   o f   th tar g et  la n g u ag e.   E x a m p les  i n   th is   ca t e g o r y   in cl u d r elev an c lan g u ag m o d el s   [ 1 ] - [ 3 ]   an d   s tatis tical  tr an s latio n   m o d els  [ 4 ] - [ 7 ] .   T h m aj o r   s h o r tco m i n g   o f   t h ese  m et h o d s   is   t h av a ilab ilit y   o f   p ar all el  b ilin g u al  co r p o r a,   esp ec ially   f o r   lo w   r eso u r ce   lan g u a g es.    Dictio n ar ies,  o n   av er a g o f f er   g o o d   n u m b er   o f   tr a n s la tio n   alter n ati v es  f o r   ea ch   s o u r ce   q u er y   ter m .   T h s i m p le s s ch e m e   to   t h is   p r o b lem   is   to   u s a ll  alter n ati v es,  m et h o d   ad o p ted   b y   [8 ] ,   [ 9 ] .   T h is   ca n n o t   b ap p r o v ed   as  a m b i g u i t y   r eso lu tio n .   Ot h er   r esear c h er s   s tu d y   co - o cc u r r en ce   p atter n s   o f   q u er y   ter m s   i n   lar g e   d o cu m en co llectio n   f o r   s en s d is a m b ig u atio n   [ 1 0 ] - [ 1 3 ] .   S u p p o s th t w o   ter m s   r ail w a y   a n d   co ac h   ar e   p r esen i n   s o u r ce   la n g u a g q u er y .   T h ter m   co ac h   h as   t h r ee   s e n s e s   ( r ail  co ac h ca r r i ag e;  i n s tr u cto r )   in   b ilin g u al  d ictio n ar y .   P r esen ce   o f   o th er   ter m   r ail w a y   i n   th q u er y ,   s u g g est  t h at  co ac h   i s   u n r elate d   to   ca r r iag o r   in s tr u cto r .   T h u s   it   ca n   b r atio n a ll y   p r ed icted   th a co r r ec tr an s latio n   o f   co ac h   w ill   te n d   to   co - o cc u r   w it h   tr an s latio n   o f   r ail w a y   in   tar g et  lan g u ag co r p u s .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  8 ,   No .   5 Octo b er   2 0 1 8   :    392 3     39 32   3924   A p p r o ac h es  b ased   o n   ab o v i d ea   d ea w ith   tr a n s la tio n   a m b i g u i t y   b y   co m p u t in g   t h co h er en ce   s co r o f   tr an s la tio n   ca n d id ate  to   th en tire   q u er y .   A   tr a n s lat io n   ca n d id ate  h a s   h ig h   co h er en ce   s co r i f   i t   f r eq u en tl y   co - o cc u r s   w it h   t h tr an s latio n s   o f   o t h er   q u er y   ter m s .   F in al l y   t h tr a n s lat io n   w i t h   h ig h est  co h er en ce   s co r is   s elec ted   f o r   th q u er y   ter m   u n d er   co n s id er atio n   [ 1 ] ,   [ 1 4 ],   [ 15] .   I n   th is   w a y   t h ese  ap p r o ac h es  m ak e   a   b in ar y   d ec is io n   f o r   ea ch   tr an s l atio n .   T h is   is   n o f u n ctio n al  wh en   w h a v n u m b er   o f   tr an s latio n s   o f   q u er y   ter m   w it h   s i m ilar   co h er e n ce   s c o r e.   L ik e w i s g i v e n   th co n te x t o f   q u er y ,   th e s ap p r o ac h es d o   n o t p r io r itize  th tr an s latio n   alter n a tiv e s   o f   q u er y   ter m   an d   tr ea t h e m   eq u all y .   T h is   m a y   d eg r ad t h ef f ec ti v en e s s   o f   an y   C L I R   s y s te m .   Als o   th s elec t io n   o f   tr an s latio n   o f   q u er y   ter m   o n   th b asis   o f   h i g h   co h er en ce   s co r is   o b tain ed   in d ep en d en tl y   f r o m   t h tr an s latio n s   o f   o th er   q u er y   w o r d s   th er eb y   lead i n g   to   lo ca l so lu tio n s .   T o   o v er co m t h ese   s h o r tco m i n g s   o f   p r ev io u s   w o r k s ,   w p r o p o s n o v el  m o d el,   n a m ed   t w o   le v el   d is a m b i g u at io n   m o d el‟ .   T h m o d el   p er f o r m s   d is a m b ig u ati o n   at  t w o   lev el s .   A t   f ir s le v el,   w e   ca ll  i lo ca l   d is a m b i g u at io n .   L o ca d is a m b ig u atio n   p r o v id es   p r o p er   d is tr ib u tio n   o f   i m p o r tan ce   f a cto r   f o r   tr an s latio n   ca n d id ates   i n d icati n g   t h eir   r el ev an c y   in   th e   g iv e n   co n tex t.  T h is   w ill   i m p ac t   t h e f f ec tiv e n es s   o f   o u r   C L I R   s y s te m .   At  n e x t le v el  w p er f o r m   g lo b al  d is a m b i g u atio n ,   wh ich   s ca n   al l p o s s ib le  p er m u ta tio n s   o f   tr a n s la tio n   ca n d id ates  to   s elec t h b est  o n an d   th e n   f o r m   t h tar g et  lan g u a g q u er y   b y   co m b in in g   its   ele m e n t s   . T h is   er ad icate s   th e   p r o b le m   o f   tr a n s lat io n s   b ein g   s elec ted   i n d e p en d en tl y .   I t s   f o r   t h f ir s ti m t h at   q u er y   ter m s   h av b ee n   d is a m b i g u ated   t w i c e -   o n ce   in   lo ca co n te x a n d   s ec o n d l y   i n   co n te x o f   t h e n tir q u er y .   T w o   le v el  d is a m b i g u at io n   is   ad v an tag eo u s   i n   ter m s   o f   in cr ea s in g   t h n u m b er   o f   r elev a n d o cu m e n t s   r etr iev ed   ag ai n s th u s er   q u er ies.  T h is   h a s   b ee n   r ep o r te d   in   Sectio n   4   u n d er   ex p er i m e n tal  r es u lts .   T h r est o f   t h p ap er   is   s tr u ct u r ed   as  f o llo w s Sectio n   2   b r ief l y   r e v ie w s   t h r elate d   w o r k   i n   s elec tio n - b ased   ap p r o ac h es  f o r   q u er y   t r an s la tio n   d is a m b ig u atio n .   Se ctio n   3   d escr ib es  o u r   t w o   le v el  d is a m b i g u at io n   m o d el,   alo n g   w it h   an   e x a m p le  to   d em o n s tr ate  t h w o r k i n g   o f   p r o p o s ed   m o d el.   Sectio n   4   p r esen ts   th e   ex p er i m e n tal  r es u lts .   Sec tio n   5   co n clu d es th is   w o r k .       2.   RE L AT E WO RK   T h ef f ec ti v en e s s   o f   d ictio n ar y   b ased   q u er y   tr an s latio n   d ep en d s   h ig h l y   o n   it s   co m p eten ce   i n   r eso lv in g   a m b ig u it y   [ 1 5 ] ,   [ 1 6 ] .   T o   f in d   th co r r ec tr an s latio n   o f   q u er y   ter m ,   r ese ar ch er s   h a v tr ied   ex p lo itin g   th co n te x o f   q u er y   i n   ter m s   o f   co - o cc u r r en ce   s t atis tics .   Co - o cc u r r en ce   s ta tis ti cs  e m p h a s izes  th a t   th co r r ec tr an s latio n s   o f   i n d iv id u al  q u er y   ter m s   ten d   to   co - o cc u r   in   t h tar g et  la n g u ag co r p u s   w h ile   in co r r ec tr an s lat io n s   d o   n o t .   T h g o o d   tr an s latio n   w o r d   is   th o n w h ich   h as  h i g h   c o h er en ce   w it h   t h e   tr an s latio n s   o f   o t h er   q u er y   w o r d s   an d   is   h e n ce   s elec ted   as t h co r r ec t tr an s latio n   o f   t h s o u r ce   q u er y   ter m .     I d ea lly ,   t h s elec tio n   o f   tr an s latio n   o f   q u er y   ter m   s h o u ld   d ep en d   o n l y   o n   th s elec ted   t r an s latio n s   o f   o th er   q u er y   ter m s .   B u to   l o w er   t h co m p u tat io n   co s t,  p r ev io u s   w o r k s   u s i n g   co h er en ce   m o d el  p r o p o s ed   an   ap p r o x im a te  g r ee d y   al g o r ith m   to   s elec t t h b es t tr an s latio n   a lter n ati v e,   i n clu d i n g   b o th   s ele cted   an d   u n s e lecte d   tr an s latio n s   f o r   all  q u er y   ter m s .   T h ap p r o x im a te  g r ee d y   al g o r ith m   is   s ta ted   as f o llo w s :     Gr ee d y   al g o r ith m   f o r   d is a m b i g u at io n   o f   tr a n s lat io n   ca n d id at es o f   q u er y   ter m s   1.   So u r ce   q u er y   is   r ep r esen ted   as   s et  {( e 1 ,   H 1 ) ,   ( e 2 ,   H2 ) , . . . . .   ( e n ,   H n ) },   w h er e i   is   th s o u r ce   q u er y   ter m   an d   H i =( h i1 ,h i2 …. . h ij )   is   t h li s t o f   t r an s latio n   ca n d id ates o f   e i   o b t ain ed   f r o m   b ili n g u al  d ictio n ar y .     2.   Fo r   ea ch   H i ,   2 . 1 .   Fo r   ea ch   tr an s latio n   h ij H i ,   d ef i n th s i m ilar it y   m ea s u r e m en b et w ee n   th tr a n s latio n   h ij   an d   s et  H k ( k i) .   C o h es io n   o f   h ij   w it h   r esp ec t to   H is   t h m a x i m u m   s i m ilar it y   o f   h ij  w it h   ev er y   h kl     H k .   So ,     s i m   ( h ij , H k )   =                                       (             )           ( 1 )       2 . 2 .   C o m p u te  co h er en ce   s co r f o r   h ij   as        Sco r ( h ij )   =                                                                  ( 2 )                                                                                                       3.   Select  th tr a n s lat io n   h H i   w it h   th h i g h e s t Sco r e.   T h s et  o f   s elec ted   ter m s   h   f r o m   ea ch   H i ,   1   i ≤ n   f o r m s   th f i n al  tr an s lated   q u er y .     Si m i lar it y   b et w ee n   t h ter m s   ca n   b m ea s u r ed   u s i n g   e ith er   d ice  co ef f icie n [ 10 ]   o r   m u t u al   in f o r m atio n   [ 1 3 ] ,   [ 1 7 ]   o r   its   v ar ian ts   [ 1 6 ] ,   [ 1 8 ] .   B asicall y ,   t h b est  s en s f o r   ea ch   ter m   i s   ch o s en   r es u lti n g   in   th f i n al  s et   o f   s elec ted   tr an s l atio n s   co n tai n in g   tr a n s lat io n s   th at  ar clo s e l y   r elate d   w i th   o n an o t h er   in   th e   co n tex t o f   s o u r ce   q u er y .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       Tw o   Leve l D i s a mb ig u a tio n   M o d el  fo r   Qu ery  Tr a n s la tio n   ( P r a tib h a   B a jp a i)   3925   Ma n y   r esear ch er s   h a v u s ed   g r ee d y   al g o r ith m   to   d i s a m b i g u ate  s o u r ce   la n g u a g q u er ie s .   C r o f a n d   B allester o s   ex p er i m e n ted   w it h   Sp an i s h - E n g lis h   la n g u a g p air   to   s elec th tr an s latio n   w it h   t h h i g h es t   co h er en ce   s co r an d   r ev ea led   th at  th m et h o d   is   v er y   s u c ce s s f u f o r   lan g u a g p air s   w i th   s ca r ce   r eso u r ce s   [ 15 ] .   A d r ian ap p r o ac h ed   th s i m ilar   p r o b lem   a n d   u s ed   m a x i m u m   s i m ilar it y   s co r b et w ee n   tr an s latio n   ca n d id ates  f o r   d if f er e n t q u er y   ter m s   [ 1 0 ] .   L ater   Gao et   a l .   cla i m ed   t h at   in cr ea s i n   d i s tan ce   b et w ee n   t w o   ter m s   w ea k en s   th e   as s o ciatio n   b et w e en   t h e m .   T h e y   r ef i n ed   t h e   d is a m b ig u atio n   al g o r ith m   b y   in co r p o r atin g   d ec a y in g   f ac to r   w ith   t h m u tu al  in f o r m atio n   s tati s tics .   T h is   r e f i n e m en ea s il y   o u tp er f o r m ed   th e   b asic  co - o cc u r r en ce   m o d el  [ 1 8 ] .   Ma ed et  a l .   r ev is ited   th p r o b le m   in   s li g h tl y   d i f f er en m an n er   a n d   in s tead   o f   co n s id er in g   t h co - o cc u r r en ce   o f   co n s ec u ti v ter m s   t h e y   co n s id er ed   all  p air s   o f   p o s s ib le  tr an s latio n s   o f   q u er y   ter m s   [ 1 3 ] .   Mo n an d   Do r r ,   d eter m i n ed   th e   s o lu tio n   b y   an   iter ati v p r o ce d u r e,   w h ich   is   s e n s i tiv e   to   t h in i tializatio n   o f   p ar am eter s   o r   th s to p   cr iter io n   e m p lo y ed   i n   t h iter ati v p r o ce d u r [ 1 9 ] .   Z h o u   et  a l .   v ie w ed   th e   co - o cc u r r en ce   o f   p o s s ib le  tr an s lat io n   ter m s   w it h i n   g i v en   co r p u s   as  g r ap h   a n d   d eter m i n ed   th i m p o r tan ce   o f   a   tr an s latio n   u s in g   g lo b al  in f o r m atio n   r ec u r s iv e l y   d r a w n   f r o m   t h en t ir g r ap h   [ 2 0 ] .   Gian g   et  a l .   u s ed   m u t u al   s u m m ar y   s co r b ased   o n   w o r d   d is tr ib u tio n   i n   d o cu m en co llectio n   to   o u tp er f o r m   b asic  m o d el  [ 1 2 ] .   An d r es  Du q u et  a l .   tech n iq u co m b in es  b o th   th d ictio n ar y   a n d   co - o cc u r r en ce   g r ap h   to   s elec t   th m o s s u itab le   tr an s latio n   f r o m   th e   d ictio n ar y   a n d   th er eb y   d is a m b ig u ati n g   th q u er y .   T h m et h o d   r elies   o n   t h h y p o t h esi s   th at  w o r d s   ap p ea r in g   i n   t h s a m d o cu m en te n d   to   s h ar r elate d   s en s e s   a n d   th er eb y   r e p r esen co h er e n t   co n ten t.   T h co - o cc u r r en ce   g r ap h   is   o b tain ed   b y   co n s id er in g   o n l y   t h o s w o r d s   t h at   f r eq u e n tl y   co - o cc u r   i n   t h e   s a m d o cu m e n ts .   T h e y   t h en   u s v ar io u s   alg o r it h m s   to   co m b in in f o r m a tio n   f r o m   t h t w o   s o u r ce s   [ 2 1 ] .   T h g r ee d y   al g o r ith m   s e lects  t h b est  tr a n s la tio n   o f   i n d iv id u al  q u er y   ter m s   co n s id er in g   b o th   s elec ted   an d   u n s elec ted   tr an s latio n s   o f   o th er   q u er y   ter m s ,   t h er eb y   lea d in g   to   tr an s latio n s   b ei n g   s ele cted   in d ep en d en tl y .   Fu r t h er m o r e,   t h tr a n s latio n   h av in g   m a x i m u m   co h er e n ce   i s   o n l y   s elec ted   a s   t h f i n al  tr an s latio n   d is r e g ar d in g   o th er   tr an s lat io n   alter n ati v es   o f   q u er y   w o r d .   T h is   b in ar y   d ec i s io n   i s   n o ac ce p tab le  w h er tr an s latio n   ca n d id ates h a v s i m ilar   co h er en ce   s co r es.       3.   P RO P O SE M E T H O D   I n   th i s   s ec tio n   w p r o p o s r elativ el y   s i m p le  y e ef f e ctiv n o v el  m o d el  n a m ed   “T w o   le v el   d is a m b i g u at io n   m o d el”  to   ad d r ess   th an o m alie s   o f   ex is ti n g   ap p r o ac h es.   C r o s s   L i n g u al  w o r d   s en s e   d is a m b i g u at io n   p er f o r m s   d is a m b ig u atio n   o f   s o u r ce   lan g u a g w o r d s   w h ile  tr an s lati n g   t h e m   to   tar g et  lan g u a g e   [ 2 2 ] C o n s id er   s o u r ce   q u er y   co n tai n i n g   s a y ,   th r ee   ter m s             an d       .   L et  t h tar g et  la n g u a g t r an s latio n s   f o r   th ese  ter m s   b e             ;                       an d             ; a n d           an d             f o r               an d         r esp ec tiv el y .   I n   F ig u r e   1   ea ch   li n k   b et w ee n   t w o   tr an s latio n   ca n d id ates  r e p r esen ts   co - o cc u r r en ce   f r eq u en c y   o f   th a t   p air   o f   tr an s lat io n   alter n ati v e .   C o - o cc u r r en ce   f r eq u e n c y   b et w ee n   tr a n s lat io n s   o f   s a m q u er y   ter m   is   n o t   co n s id er ed ,   th er eb y   lead in g   to   n o   lin k s   b et w ee n   th e m .                                                                                                                                                                      Fig u r 1 .   Co - o cc u r r en ce   g r ap h   f o r   s o u r ce   q u er y   Q       Su p p o s th at             o cc u r s   m o r f r eq u en t l y   w it h             th an   an y   o t h er   p air   o f   tr an s latio n   ca n d id ates  f o r         an d       .   A s   r esu lt              an d             w o u ld   b m o r id ea tr an s latio n s   f o r         an d       .   On   th o th er   h an d ,   let‟ s   ass u m e   th a t             an d             d o   n o co - o c cu r   w it h               at  all,   b u t             an d             d o .   T h is   r ai s es  a   v er y   v alid   q u e s tio n   t 2,   1   t 2,   2   t 2,   3   t 3,   1   t 3,   2   t 1, 1   S1   S2   S3   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  8 ,   No .   5 Octo b er   2 0 1 8   :    392 3     39 32   3926   as  to   s elec w h ic h   p air   o f   tr a n s lat io n   ca n d id ates  i.e .   ( 1 )               an d             o r   ( 2 )             an d           .   T o   h av b etter   u n d er s ta n d in g ,   co n s id er   th E n g l is h   s o u r ce   q u er y --   S ec u r it mea s u r es i n   r a ilw a co a ch   Dictio n a r tr a n s la tio n s   fo r   q u ery  terms   a r e :   Secu r it y   { जम }   Me asu r { पा रा शि   पद ड }   R ail  { }   C o ac h   { को शि   }   I n   th co n te x o f   r ail ,   th p a ir   {   रा शि } w ill  b p r ef er r ed   o v er   th p air   {   पा a n d   {     पद ड   b u if   w talk   ab o u th s ec u r it y   o f   r ail w a y   co ac h   t h co m b in a tio n       , पा   }is  id ea th an   th co m b in at io n   {     रा शि    }. T h is   i m p lies   th a d is a m b i g u a tio n   at  lo ca le v e o n l y   i s   n o id ea l,  b u t h n ee d   to   p er f o r m   d is a m b ig u atio n   g lo b all y   co n s id er i n g   th q u er y   a s   s in g le  co n ce p is   r eq u ir ed   to o .   T o   ad d r ess   th ese   an o m alie s   o f   e x is t in g   ap p r o ac h es,  w e   p r o p o s r elati v el y   s i m p le   y et   ef f ec tiv n o v el   m o d el   n a m ed   T w o   le v el  d is a m b i g u at io n   m o d el”  w h ic h   p er f o r m s   d i s a m b i g u atio n   at  t w o   lev els Fir s le v el   d is a m b i g u at io n   an d   Seco n d   lev el  d is a m b ig u atio n .     3 . 1 .   F irst  lev el  dis a m big ua t io n   W r ef er   f ir s le v el  d is a m b i g u atio n   a s   lo ca d is a m b i g u at i o n .   Firs lev el  d i s a m b i g u atio n   d ea w ith   th tr an s latio n   ca n d id ate s   in   p air s   o n l y .   T h is   is   d o n w i th   t h ai m   to   o b tain   p ar tial  d ata   f o r   th lik eli h o o d   o f   a   tr an s latio n   in   t h p er s p ec tiv o f   o th er   q u er y   ter m s .   Fo r   g iv en   q u er y   w o r d ,   in s tead   o f   tak in g   b in ar y   d ec is io n   f o r   its   tr an s la tio n   ca n d id ate s ,   w ca lc u late  t h i m p o r tan ce   f ac to r   o f   ea ch   o f   th ca n d id ate s   in   t h co n tex o f   g iv e n   q u er y .   T h is   i m p o r tan ce   f ac to r   ap p r o x i m ates   t h p r o b ab ilit y   o f   ca n d i d ate  to   b s elec ted   a s   a   f in a l   tr an s latio n   o f   q u er y   w o r d .   Hig h er   t h i m p o r tan ce   f ac to r s   m o r it  i s   r elev a n in   t h co n te x o f   t h u s er   q u er y .   tr an s latio n   ca n d id ate  is   ass i g n ed   a   h ig h   i m p o r tan ce   f ac to r   if   it   is   r atio n al   w it h   t h s e m a n tic  m ea n i n g   o f   t h u s er   q u er y .     L et  t h s o u r ce   q u er y   b                             Step   1   a)   Fin d   th tr an s latio n   ca n d id ates  f r o m   b ilin g u al  d ictio n ar y .   L et  th tr an s latio n   ca n d id ates  o f   q u er y   ter m         b r ep r esen ted   as a   s et                                        .   b)   Fo r   ea ch        ,   w h er 1 <= i <= n   a n d   1 <= j <= m   r etr iev e   all  e x a m p l s en te n ce s   f o r   it s   s y n s et,   h y p er n y m s   a n d   h o m o n y m s   f r o m   H in d i W o r d Net.   E x a m p le  s en te n ce s   f r o m   o th er   s o u r ce s   ar also   ad d ed   f o r        .   Sto r th e m   in   f i le.   Step   2     a)   Ass i g n   2 * 2   u s ag m atr ix         f o r   ea ch   q u er y   ter m       .   T h co lu m n s   r ep r esen th tr an s latio n   ca n d id ates  o f   q u er y   ter m         w h ile  r o w s   r ep r esen t h tr an s latio n   ca n d id ates  o f   r e m ain in g   q u er y   w o r d s       ,   w h er e   1 <= k <= n   a n d   k i.  I n itialize  t h m atr ix   w i th   0 s .   b)   C o u n t h u s a g o f   tr an s lati o n   ca n d id ate         o f         in   e x a m p le   s en te n ce s   o f   tr a n s lat io n   ca n d i d ates         o f   o th er   q u er y   ter m s       ,   w h er 1 <= k <= n   a n d   k i.  T h co u n t i s   s to r ed   in   m atr ix           c)   R ep ea t th s a m f o r   all  tr an s la tio n   ca n d id ates o f   al l q u er y   ter m s .   d)   Fin d   t h s u m   o f   co l u m n   e n tr ie s   to   o b tain              th Usa g C o u n o f   p ar ticu lar   tr a n s la tio n   ca n d i d ate  w it h   r esp ec t to   tr an s latio n   ca n d id ates o f   o th er   q u er y   ter m s .   e)   No r m a lize          to   o b tain         ,   I m p o r tan ce   f ac to r   o f   tr an s latio n   ca n d i d ate        .     3 . 2 .   Seco nd   lev el  dis a m b ig ua t io n   W r ef er   s ec o n d   lev el  d is a m b ig u atio n   as  g lo b al  d is a m b i g u at io n .   Glo b al  d is a m b ig u ati o n   ai m s   a t   f i n d in g   t h m o s s u itab le  tr an s lat io n   f o r   th g i v en   q u er y .   T h is   r eso lv e s   th e   p r o b lem   o f   tr an s latio n s   b ei n g   s elec ted   in d ep en d en t l y   f r o m   s elec ted   an d   u n s elec ted   tr an s lat io n s   o f   r e m ai n i n g   q u er y   ter m s .   T h is   s tep   co m p u tes  t h co h er en ce   b et wee n   all  p o s s ib le  co m b in atio n s   o f   tr an s lat io n   ca n d id ates  o f   q u er y   ter m s .   T o   g iv d u r eg ar d   to   m o s p r e f er r ed   tr an s latio n   ca n d id ates  ,   th a l g o r ith m   co m b i n es  d ice  co e f f i cien s co r w it h   t h im p o r tan ce   f ac to r   f o r   w o r d   p air s   to   o b tai n   W ei g h ted   Su m m ar y   Dice   C o ef f icie n t   ( W SDC )   f o r   ev er y   co m b i n atio n   o b tain ed   b y   i n cl u d in g   o n tr a n s la tio n   ca n d i d ate  f o r   ea ch   s o u r ce   q u er y   ter m       .   T h m o ti v atio n   b eh in d   u s i n g   Dice   co e f f icie n t   f o r   m ea s u r in g   as s o ciatio n   s tr en g t h   b et w ee n   t w o   ter m s   i s   t h at  t h v al u o f   th e   Dice   co ef f icien r an g es  b et w e en   0   an d   1   ( w h er 1   is   p er f ec t   co - o cc u r r en ce ) ,   w h er ea s   m u t u al  i n f o r m atio n   h a s   n o   u p p er   b o u n d   [ 1 9 ] .   Step   3   a)   Fin d   all  co m b i n atio n s   C {                           w h er       is   tr an s latio n   ca n d id ate  o f       .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       Tw o   Leve l D i s a mb ig u a tio n   M o d el  fo r   Qu ery  Tr a n s la tio n   ( P r a tib h a   B a jp a i)   39 27   b)   C o m p u te  W SDC   f o r   ea ch   co m b in atio n   C   as     W SDC ( C )   =                                                                  w h er 1 <= i<= n ,   1 <= j <= n   an d   i≠ j   ( 3 )       an d ,     Dice   C o ef f icie n t,     (           )                                                                           ( 4 )                                                                                                           th n u m b er   o f   o cc u r r e n ce s   o f   ter m         in   tr ain in g   co r p u s                  th n u m b er   o f   o cc u r r e n ce s   o f   ter m         in   tr ain in g   co r p u s                        = co - o cc u r r en ce   f r eq u e n c y   o f   ter m s         an d         in   s en ten ce   i n   d o cu m e n t s .           c)   Select  th co m b i n atio n   w it h   h i g h e s t W SD C   s co r as th tar g et  lan g u a g q u er y         o f   th s o u r ce   q u er y   Q.                                                    ( 5 )                                                                                                                                                                           3 . 3 .   E x a m p le  o f   dis a m big ua t io us ing   pro po s e m o del   R ec o n s id er   t h E n g li s h   s o u r c q u er y   Sec u r it y   m ea s u r e s   i n   r ail w a y   co ac h ”.   P er f o r m i n g   f ir s le v e l   d is a m b i g u at io n   w o b tai n         ,   I m p o r tan ce   f ac to r   o f   tr a n s lat io n   ca n d id ate          as  f o llo w s T ab le  1   r ep r esen ts   th r esu lt  o f   f ir s lev e d is a m b ig u a tio n   o f   t h p r o p o s ed   m o d el.   T h r esu lt  s u g g e s tr an s lati o n   s et  { रा शि को as  th m o s ap p r o p r iate  tr an s latio n   o f   g iv e n   E n g l is h   q u er y ,   d ep en d in g   u p o n   th h ig h est  v al u e   o b tain ed   b y   t h tr an s latio n   ca n d id ate  o f   r esp ec tiv q u er y   ter m s .       T ab le  1 .   I m p o r tan ce   Facto r   o f   T r an s latio n   C a n d id ates E s ti m a ted   u s i n g   F ir s L ev el  D is a m b i g u at io n   S . N o .   S o u r c e   q u e r y   t e r m   T r a n sl a t i o n   C a n d i d a t e s   I mp o r t a n c e   F a c t o r   1   S e c u r i t y     0 . 8 3 5   2   मा   0 . 1 6 4   3   C o a c h     0 . 6 6 6   4   शिऺक   0 . 4 4 4   5   M e a su r e   शि   0 . 5 2 7   6   पा   0 . 4 4 4   7   मा पद ड   0 . 0 2 7   8   Rail     1 . 0             3 . 4 .   Af t er   s ec o nd   lev el  dis a m big ua t io n   Fig u r 2   an d   Fig u r 3   r ep r esen co m p u tatio n   o f   W eig h ted   Su m m ar y   Dice   C o ef f icie n ( W SDC )   f o r   tr an s latio n   s ets  { रा शि को an d   { पा को }.   W SDC   { रा शि को an d   W SDC   { पा को ar 0 . 6 5 1   an d   0 . 7 1 3   r esp ec tiv el y .   Dep en d i n g   u p o n   W eig h ted   S u m m ar y   Dice   C o ef f icie n t,  af te r   s ec o n d   lev el   d is a m b ig u atio n ,   tr an s la tio n   s et  { पा को is   s elec ted   as  th f i n al   tr an s latio n   f o r   th g i v en   e x a m p le  q u er y   Sec u r it y   m ea s u r es  in   r ai l w a y   co ac h ”.   T h is   i s   b ec au s i n   f ir s le v el   d is a m b i g u at io n ,   tr an s latio n   ca n d id ates  ar co n s id er ed   in   p ai r s   w h ile  i n   s ec o n d   lev el  d is a m b ig u atio n   th t w o   tr an s latio n s   रा शि   an d   पा   w h e n   tr ea ted   in   th co n te x t   o f   en tire   q u er y ,   पा   tu r n s   o u to   b co r r ec t   tr an s latio n   f o r   E n g li s h   q u er y   t er m   m ea s u r e .                 Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  8 ,   No .   5 Octo b er   2 0 1 8   :    392 3     39 32   3928   Qu er y   T r an s latio n   ca n d id ates     Secu r it y       Me asu r es       R ail w a y         C o ac h                   Fig u r 2 .   C o m p u tat io n   o f   W S DC   f o r   tr an s latio n   s et  { रा ि कोच }       Qu er y   T r an s latio n   ca n d id ates     Secu r it y       Me asu r es       R ail w a y         C o ac h                                       Fig u r 3 .   C o m p u tat io n   o f   W S DC   f o r   tr an s latio n   s et  { उपा कोच }                        4.   E XP E R I M E NT   I n   t h is   s ec tio n   w e   d is c u s s   o u r   ev al u atio n   o f   t h t w o   le v el  d is a m b i g u at io n   m o d el  d escr i b ed   ab o v e.   W f ir s t p r esen t t h s et - u p   o f   o u r   ex p er i m e n t f o llo w ed   b y   t h ex p er i m e n tal  r es u lts .     4 . 1 .   E x peri m e nta l set t ing   Fo r   tr ain i n g   o u r   m o d el,   w d e v elo p ed   Hin d i   co r p u s   t h at  c o n tain s   5 0 0 0   ar ticles  i n   UT F - 8   en co d in g ,   p u b lis h ed   in   lead in g   Hin d i   n e w s p ap er s   Dai n ik   J ag r an ,   Am a r   Uj ala  an d   W eb   Du n ia   w it h   a n   a v er ag e   s ize   o f   2 5   KB   ea ch .   T h d o cu m en co ll ec tio n   co n s i s ts   o f   ar ticle s   ac r o s s   th d o m ai n s   s u c h   as  p o liti cs,  s p o r ts ,   s cien ce ,   en ter tai n m e n t,  s o cial  s cie n ce   an d   cr i m i n al,   m o ti v ated   b y   th h eter o g en eo u s   n a tu r o f   u s e r   q u er ies.  W cr ea te   s et  o f   5 0   E n g l is h   q u er ie s   as  p er   th C L E F   &   T R E C   g u id el in es  to   ev al u ate  t h p er f o r m an ce   o f   t h p r o p o s ed   m o d el.   T h te s q u er ie s   ar ab le  to   ca p tu r th n at u r o f   th q u er y   p o s ed   b y   w eb   u s er .   W u s p u b licl y   av ailab le  o n li n b ilin g u al  E n g l is h   to   Hin d d ictio n ar y   Sh ab d an j ali‟   d ev elo p ed   in   I I I T ,   Hy d er ab ad   an d   co n tain i n g   2 8 Hi n d w o r d s   to   tr an s la te  E n g li s h   q u er ies   to   Hin d lan g u ag q u er ies  [ 2 3 ] .   T h d ictio n ar y   r eq u ir ed   co n v er s io n   f r o m   I S C I I   to   UT F - 8   en co d in g   an d   s o m b asic   n o r m aliza tio n .   W u s a n   E n g lis h   s to p   w o r d   li s o f   5 0 7   E n g li s h   w o r d s   to   r em o v s to p   w o r d s   f r o m   th q u er ie s   f o r m u lated   f o r   ev alu at io n .   P o r ter   s te m m i n g   al g o r ith m   is   u s ed   to   r ed u ce   in f lecte d   E n g lis h   q u er y   w o r d s   to   b ase  f o r m   [ 2 4 ] .   Hin d W o r d Net   p r o v id ed   b y   th L in g u is t ic  Data   C o n s o r ti u m   is   le x ical  d ata b ase  f o r   Hin d an d   d ev elo p ed   b y   I I T   B o m b a y   [ 2 5 ] .   I is   u s ed   f o r   f ir s le v el  d is a m b i g u at io n .   I co n tain s   1 0 3 4 3 8   u n iq u e   Hi n d w o r d s   an d   3 9 2 7 1   n u m b er   o f   s y n s et.   W u s it  to   f etc h   e x a m p le  s e n ten ce s   f o r   all  th s e n s e s ,   h y p er n y m s   an d   h o m o n y m s   o f   tr an s latio n   c an d id ate.   T h p r o p o s ed   m o d el  is   ev al u ated   at  ac t u al  w eb   d o cu m e n t s   u s i n g   Go o g le   in d e x ed   d ata b ase.   W eb   s ea r ch   e n g i n e s   co n tai n   h u g v o lu m o f   d o cu m en t s   co v er i n g   v ar ied   d o m ai n s   an d   p er io d icall y   u p d ate  th ei r   in d ex .   T h u s   t h s e o f   d o cu m en ts   r etr ie v ed   f o r   ea c h   d is a m b ig u at ed   q u er y   ca n   g iv g o o d   j u d g m en o f   t h e   ef f icien c y   o f   p r o p o s ed   t w o   le v el  d is a m b ig u atio n   m o d el.   T h r elev a n ce   j u d g m e n ts   f o r   th Hin d d o cu m en ts   o b tain ed   w it h   r esp ec to   E n g l i s h   q u er ie s   is   estab li s h ed   w it h   th h elp   o f   t h r ee   Hin d s p ea k i n g   v o lu n teer s   f r o m   I n d i an   I n s tit u te   o f   T ec h n o lo g y   ( B an ar as  Hin d u   U n i v er s it y ) .   Do cu m en t   w h ich   is   j u d g ed   a s   r elev a n b y   all   th e   जम   पा     रा शि     0 . 0 3 3     0 . 0 1 4     शि     को       0 . 2 8 1   पद ड     0 . 0 6 9     0 . 0 5 4     0. 2     रा शि     जम   पा     0 . 0 2 3     0 .0 4 3     शि     को       0 . 2 8 1   पद ड     0 . 0 6 9     0 . 0 97     0. 2     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       Tw o   Leve l D i s a mb ig u a tio n   M o d el  fo r   Qu ery  Tr a n s la tio n   ( P r a tib h a   B a jp a i)   3929   th r ee   v o lu n teer s   i s   m ar k ed   as  r elev an el s tr ea ted   as  ir r elev an t.  I n   th i s   w a y   w co llected   th s et  o f   r elev a n t   Hin d i d o cu m e n t s   f o r   ea ch   E n g lis h   te s t q u e r y .     4 . 2 .   E v a lua t io m et ho d   T h f o llo w in g   m et h o d s   ar co m p ar ed   to   i n v e s ti g ate  t h e   ef f ec ti v en e s s   o f   o u r   m o d el   f o r   q u er y   tr an s latio n   an d   d is a m b ig u atio n :   a.   Mo n o lin g u a l r etr iev a u s i n g   t h Hi n d q u er ie s   tr an s l ated   m an u all y   b y   Hi n d la n g u a g e x p er t.  Mo n o lin g u a r u n   p r o v id es  u n r ea ch ab le  p er f o r m an ce   ce ili n g   f o r   an y   cr o s s   li n g u a i n f o r m atio n   s y s te m   a s   tr an s latio n   p r o ce s s   is   i n h er e n tl y   n o is y .     b.   Si m p le  tr a n s lat io n r etr iev a u s i n g   q u er y   tr a n s la tio n   b y   ta k in g   t h f ir s tr a n s latio n   f r o m   t h b ilin g u al   d ictio n ar y .   T h f ir s t   tr an s lati o n   f o r   a n y   ter m   i n   b ili n g u a d ictio n ar y   is   g e n er all y   t h e   m o s t   f r eq u en t   tr an s latio n   f o r   th a t te r m   ac co r d in g   to   W o r ld   W id W eb .   c.   B ase  ap p r o ac h r etr iev al   u s i n g   b asic   Gr ee d y   alg o r it h m   to   f in d   b est   tr an s latio n ,   as   d escr i b ed   in   s ec tio n   I I .   W u s th s a m t r ai n in g   d o cu m e n co llectio n   to   esti m ate  co h esio n   s co r es,  w h ic h   is   p r ep ar ed   to   tr ain   o u r   m o d el.       d.   P r o p o s ed   m o d el : r etr iev al  u s i n g   th p r o p o s ed   t w o   lev el  d is a m b ig u atio n   m o d el.     4 . 3 .   E x peri m e nta l r esu lt s   T h test   q u er y   s et  co n s is t s   o f   t w o   t y p e s   o f   q u er ies.  T h f ir s t   is   ter m ed   as  s h o r q u er ies  an d   th o th er   as  lo n g   q u er ies.  S h o r q u er y   c o m p r i s es  o f   2   to   4   k e y w o r d s   w h er ea s   lo n g   q u er y   i s   f o r m ed   as  n at u r al  s e n te n ce   w it h   a v er ag le n g t h   o f   7 . 1 2   ter m s .   S h o r q u er ies  ar th ac tu al  r ep r esen tatio n   o f   m o s q u er ies  p o s ed   b y   u s er s ,   p ar ticu lar l y   th w eb   q u er ies   wh ich   te n d   to   h a v f e w   ter m s .     T h u s   w c h o s to   h a v m aj o r   n u m b er   o f   q u er ies   in   o u r   test   q u er y   s et  a s   s h o r t q u er ies.     W h av u s ed   s tan d ar d   ev a lu atio n   m ea s u r e,   Me a n   Av er ag P r ec is io n   ( M A P )   to   ev a lu ate  o u r   p r o p o s ed   m o d el  w it h   m o n o li n g u al,   s i m p le  a n d   b ase   ap p r o ac h .   T h e v alu a tio n   h a s   b ee n   d o n o n   f ir s t   5 0   Hin d i   d o cu m en ts   r etr iev ed   u s in g   G o o g le  s ea r ch   en g in e.   T ab le  2   d escr ib es  o u r   ex p er im e n tal   r esu lts .   Fo r   ea ch   m et h o d ,   w g i v a v er ag v alu es o f   P @ k   w i th   k 1 0 ,   2 0 ,   an d   5 0 .       T ab le  2 .   R u n   Stati s tic s   f o r   s h o r Qu er ies     Ex p e r i me n t a l   R u n   M e a n   A v e r a g e   P r e c i si o n   ( M A P )   P e r c e n t a g e   M o n o l i n g u a l   M o n o l i n g u a l   0 . 5 1 8   --   S i mp l e   t r a n sl a t i o n   0 . 2 0 0   3 8 . 6 1 %   B a se   A p p r o a c h   0 . 3 2 5   6 2 . 7 4 %   Tw o   l e v e l   D i sam b i g u a t i o n   0 . 4 1 2   7 9 . 5 3 %       T ab le  3   co m p ar es  t h M A P   v alu o f   s i m p le   tr an s latio n ,   b ase  ap p r o ac h   an d   p r o p o s ed   m e th o d   w it h   b aselin m et h o d   i.e .   m o n o lin g u al  r u n   f o r   s h o r t q u er ies.  T h p er f o r m a n ce   o f   t h ese  r u n s   is   3 8 . 6 1 %,  6 2 . 7 4 % a n d   7 9 . 5 3 r esp ec tiv el y   o f   m o n o l in g u al  r u n .   T h p r o p o s ed   ap p r o ac h   s h o w s   a n   i m p r o v e m e n o f   2 1 . 1 1 o v er   th e   b ase  ap p r o ac h .       T ab le  3 .   A v er ag R etr iev al  P r ec is io n   o f   E x p er i m e n tal  R u n s   f o r   Sh o r t Q u er ie s     Ex p e r i me n t a l   R u n   P @ 1 0   P @ 2 0   P @ 5 0   M o n o l i n g u a l   0 . 4 8 3   0 . 4 2 0   0 . 3 0 9   S i mp l e   t r a n sl a t i o n   0 . 1 4 5   0 . 1 1 2   0 . 0 8 9   B a se   A p p r o a c h   0 . 3 1 6   0 . 2 7 0   0 . 1 8 4   Tw o   l e v e l   D i samb i g u a t i o n   0 . 3 8 3   0 . 3 3 6   0 . 2 4 0       T ab le  4 .   A v er ag r etr iev a l p r ec is io n   o f   e x p er i m e n tal  r u n s   f o r   lo n g   q u er ies     Ex p e r i me n t a l   R u n   M e a n   A v e r a g e   P r e c i si o n   ( M A P )   P e r c e n t a g e   M o n o l i n g u a l   M o n o l i n g u a l   0 . 6 0 0   --   S i mp l e   t r a n sl a t i o n   0 . 2 6 3   4 3 . 8 3 %   B a se   A p p r o a c h   0 . 4 1 4   6 9 . 0 0 %   Tw o   l e v e l   D i samb i g u a t i o n   0 . 5 0 1   8 3 . 5 0 %     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  8 ,   No .   5 Octo b er   2 0 1 8   :    392 3     39 32   3930   T ab le  4   co m p ar es  t h M A P   v alu o f   s i m p le  tr an s latio n ,   b a s ap p r o ac h   an d   p r o p o s ed   m e th o d   w ith   b aselin m et h o d   i.e .   m o n o lin g u al  r u n   f o r   lo n g   q u er ies.  T h p er f o r m a n ce   o f   t h ese   r u n s   i s   4 3 . 8 3 %,  6 9 . 0 %an d   8 3 . 5 0 r esp ec tiv el y   o f   m o n o l in g u al  r u n .   T h p r o p o s ed   ap p r o ac h   s h o w s   a n   i m p r o v e m e n o f   1 7 . 3 6 o v er   th e   b ase  ap p r o ac h .     4 . 4 .   Ana ly s is   T h g r ee d y   ap p r o ac h   u s ed   to   d is a m b i g u ate  q u er y   w o r d s   tr ea ts   all  tr an s latio n   alter n at iv e s   eq u all y .   B u t h er ex i s ts   s ig n i f ica n v ar ia n ce   i n   t h p r io r it y   ac r o s s   d if f er en t   Hi n d w o r d s ,   as  d e m o n s tr ated   i n     Fig u r 4 .         जी वन     का का   जो ि   Life   0 . 2 4 9   0 . 2 4 7   0 . 2 4 8   0 . 2 5 6                 वा   रा     A tta ck   0 . 2 6 2   0 . 2 3   0 . 3 3 7   0 . 1 7 1               पा   रा शि   पद ड     Mea s u r e   0 . 4 4 4   0 . 5 2 7   0 . 0 2 7       F ig u r 4 .   E x a m p les o f   I m p o r tan ce   f ac to r   esti m ated   b y   f ir s t l ev el  d is a m b ig u atio n       T h f ir s t   ex a m p le  i n   th e   F i g u r 4   s h o w s   a n   al m o s u n if o r m   d is tr ib u tio n   o v er   all  t r an s latio n   alter n ati v es,  w h ile  t h th ir d   o n is   s k e w ed   d is tr ib u tio n .   I n   b et w ee n ,   t h s ec o n d   e x a m p l is   ca s w h ich   i s   n eit h er   u n i f o r m   n o r   s k e w ed .   T h ese  th r ee   e x a m p le s   ill u s tr at w h y   w m ea s u r t h i m p o r t an ce   o f   ea ch   o f   t h ca n d id ates in   t h co n te x t o f   g i v en   q u er y .   T h b ase  ap p r o ac h   w h ic h   also   ex p lo its   w o r d   co - o cc u r r en ce   s tatis tic s   f o r   q u er y   tr an s latio n   d is a m b i g u at io n   s h o w s   p er f o r m a n ce   d r o p   o f   2 1 . 1 1 o v er   th p r o p o s ed   a p p r o ac h .   C o n s id er   q u er y   Sec u r it y   m ea s u r i n   r ail w a y   co ac h ”.   T h b ase  ap p r o ac h   m ak e s   i n co r r ec t r an s latio n   s e lectio n   f o r   th e   ter m   m ea s u r e‟   as  रा शि .   T h co r r ec Hin d tr an s latio n   is   पा   in s tead   o f   रा शि .   T h is   is   b ec au s g r ee d y   alg o r ith m s   d o   n o co n s id er   th q u er y   as  s i n g le  co n ce p a n d   d is a m b ig u ate  t h q u er y   ter m s   i n d ep en d en t l y   i n   p air s .   T h t r an s latio n   ca n d id ate  रा शि   f o r   ter m   m ea s u r e‟   i s   m o r co n s is te n w i th   eit h er   o f   th q u er y   ter m s   ‟,   को   an d   as  co m p ar ed   to   tr an s latio n   alter n ati v पा ,   th er eb y   lead in g   it  t o   b s elec ted   as  th f i n al  Hi n d i tr an s la tio n   f o r   m e asu r e .   T h p r o p o s ed   ap p r o ac h   ac h iev es  7 9 . 5 3 o f   m o n o li n g u a r u n   in   ter m s   o f   M A P .   T h r ea s o n   b eh in d   it   is   th tr ea t m e n o f   s o m w o r d s   b y   th e   d ictio n ar y   u s ed   f o r   b ilin g u al  tr an s latio n   o f   s o u r ce   q u er y   w o r d s .   Fo r   in s ta n ce ,   f o r   s o u r ce   q u er y   I n d ian   an i m atio n   i n d u s tr y   f il m s ,   th ter m   a n i m atio n   is   tr an s lated   as    ,   जी वंतता ,   जी - ंच रण ,   वंतता   etc.   b y   d ictio n ar y .   T h ese  tr an s latio n s   p r o v id ed   b y   t h tr an s latio n   d ictio n ar y   ar in ap p r o p r iate  in   th e   g i v e n   co n tex t.   T h d o cu m en ts   r etr ie v ed   a g ain s th e s t r an s latio n s   d e s cr ib j o u r n e y   o f   I n d ia n   f il m   i n d u s tr y   in s tead   o f   r o le  o f   an i m atio n   in d u s tr y   i n   I n d ia n   cin e m a.   T h s i m p le  tr a n s la tio n   r u n   s h o w s   t h w o r s t p er f o r m an ce   a m o n g   al l t h r u n s .   I n   s i m p le   tr an s latio n   we   tak th f ir s tr a n s la tio n   f r o m   th b ilin g u al  d ictio n ar y   f o r   ea ch   q u er y   ter m .   T h f ir s tr an s l atio n   f o r   an y   ter m   in   b ilin g u al  d ictio n ar y   i s   g e n e r all y   th m o s f r eq u en tr an s la tio n   f o r   th at  ter m   ac co r d in g   to   W o r ld   W id W eb .   T h co n tex o f   th q u er y   is   n o ex p lo ite d   at  all  f o r   d is a m b ig u atio n   an d   th er eb y   lea d in g   to   m a x i m u m   d eg r ad atio n   in   p er f o r m a n ce   as  co m p ar ed   to   m o n o lin g u al   r u n .   T o   f u ll y   ex a m i n t h ef f ec tiv e n e s s   o f   o u r   p r o p o s ed   m o d el,   w test   it  a g ain s b o th   t h lo n g   E n g l is h   q u er ies  an d   th s h o r E n g lis h   q u er ies.  T h r esu lts   s h o w   th at  t h u s o f   t h p r o p o s ed   q u er y   tr an s latio n   s c h e m is   m o r ef f ec ti v w it h   lo n g er   q u er ies  th an   w it h   s h o r ter   q u er ies.  T h i s   is   ex p e cted   b ec au s lo n g er   q u er ies   p r o v id m u ltip le  co n tex t u al   w o r d s   w h ic h   ca n   co n tr ib u te  to   b etter   d is a m b i g u atio n .   T h is   r e s u l co n f ir m s   o u r   in t u iti v e   ass u m p tio n   th a n atu r al  s en ten ce   b ased   q u er ies  ar le s s   a m b i g u o u s   th an   k e y w o r d   b ased   q u er ie s .   P r o p o s ed   ap p r o ac h   d o es  n o s h o w   m u c h   s ig n i f ica n t   i m p r o v e m en t   o v er   b ase   ap p r o ac h   f o r   lo n g er   q u er ie s .   T h is   is   co n v in ce d   a s   b o th   ap p r o ac h es  d ep en d   o n   co n te x t   o f   q u er y   f o r   d is a m b i g u atio n .   R ich   co n te x o f   lo n g   q u er ies  h elp   b o th   ap p r o ac h es  in   s u cc es s f u d is a m b i g u at io n   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       Tw o   Leve l D i s a mb ig u a tio n   M o d el  fo r   Qu ery  Tr a n s la tio n   ( P r a tib h a   B a jp a i)   3931   o f   s o u r ce   q u er y   w o r d s .     Fig u r 5   s h o w s   t h M A P   s co r co m p ar is o n   o f   th e   f o u r   ex p e r i m en tal  r u n s   f o r   b o th   s h o r q u er ies  a n lo n g   q u er ies.O u r   ap p r o ac h   ca n   ea s i l y   b i m p le m e n ted   f o r   o th er   p air   o f   I n d ia n   la n g u a g e s .   T h ap p r o ac h   is   s i m p le  a n d   u s e s   o n l y   lex ical   d atab ase,   b ilin g u a d ictio n ar y   an d   m o n o li n g u al  co r p u s   f o r   q u er y   tr a n s lat io n   an d   d is a m b ig u atio n .   Ho w e v e r   th s u cc ess   r ate  f o r   o th er   l an g u a g es   m a y   v ar y   d u e   to   t h u n a v ailab il it y   o f   r eso u r ce s   in   p ar ticu lar   lan g u ag e.                      Fig u r 5 .   MA P   s co r co m p ar i s o n   o f   v ar io u s   e x p er i m e n tal  r u n s           5.   CO NCLU SI O N   I n   th is   p ap er ,   w p r o p o s n e w   m o d el  f o r   cr o s s   la n g u a g i n f o r m atio n   r etr iev a s y s te m ,   n a m ed   t w o   lev el  d is a m b i g u a tio n   m o d el”.   C o m p ar ed   to   p r ev io u s   s elec ti o n   b ased   ap p r o ac h es ,   th m er i ts   o f   o u r   m o d el  ar e   (a )   p r o p er   d is tr ib u tio n   o f   i m p o r tan ce   f ac to r   f o r   tr a n s latio n   ca n d id ates  w h ic h   in d icate s   th eir   r elev an c y   i n   th e   g iv e n   co n te x t,  ( b )   esti m at io n   o f   tr a n s la tio n s   o f   all  q u er y   w o r d s   s i m u l tan eo u s l y .   T h r esu lt s   d e m o n s tr ate  ef f ec tiv e   r etr iev al   b y   ac h ie v i n g   7 9 . 5 3 f o r   s h o r q u er ie s   an d   8 3 . 5 0 f o r   lo n g   q u er ies  o f   th e   m o n o lin g u al   r esu lt.  T h p r o p o s ed   m o d el  s h o w s   a n   i m p r o v e m en o f   ab o u 2 0 o v er   th e   b ase  ap p r o ac h .   T h r esu lts   a ls o   co n f ir m   t h g en er al  p atter n   t h at  d is a m b i g u at io n   o f   lo n g   n atu r al  la n g u a g s e n te n ce   q u er y   is   m o r e f f ec tiv e   th an   s h o r t q u er ies.  O u r   m e th o d   ca n   ea s il y   b ex ten d ed   to   o th er   lan g u a g p air s .   T h p r o p o s ed   m o d el  f o r   cr o s s   lan g u a g in f o r m atio n   r etr iev al  r elies  h ea v il y   o n   th co v e r ag o f   th e   d ictio n ar y   a n d   t h q u a lit y   o f   lex ico n   u s ed .   So ,   w e   p lan   t o   w o r k   o n   o t h er   g en er ic   ap p r o ac h es  f o r   q u er y   tr an s latio n   an d   d is a m b ig u atio n   lik u s in g   w eb   etc  in   f u tu r e.       RE F E R E NC E S     [1 ]   Kra a ij   W R . e a l. ,   Tw e n t y - o n e   a T REC - 8 Us in g   Lan g u a g e   Tec h n o l o g y   f o In f o r m a ti o n   Re tri e v a l ,   i E.   M .   Vo o rh e e a n d   D.  K .   Ha rm a n ,   e d it o rs ,   T h e   Ei g t h   T e x Retrie v a Co n fer e n c e   ( T RE C - 8) ,   Na ti o n a In st it u te  o S tan d a rd s a n d   T e c h n o lo g y ,   NIST ,   2 0 0 0 .   N IS T   S p e c ial  P u b li c a ti o n   5 0 0 - 2 4 6 ,   v o l.   8 ,   p p .   2 8 5 - 3 0 0 ,   2 0 0 0 .     [2 ]   L a v re n k o   V .   a n d   Cro f W B. ,   R e lev a n c e   b a se d   L a n g u a g e   M o d e ls ,   Pro c e e d in g o th e   2 4 th   A n n u a In ter n a ti o n a l   ACM   S IGIR  Co n fer e n c e   o n   Re se a rc h   a n d   De v e lo p me n i n   In f o rm a ti o n   Retrie v a l ,   A CM   P re s s,  Ne w   Yo rk ,     pp.   1 2 0 - 127 2 0 0 1   [3 ]   L a v re n k o   V . e a l. ,   Cro ss - li n g u a Re lev a n c e   M o d e ls ,   Pro c e e d in g o th e   2 5 th   A n n u a In ter n a ti o n a ACM   S IGI R   Co n fer e n c e   o n   Res e a rc h   a n d   De v e lo p me n i n   I n fo rm a ti o n   Retrie v a l ,   A CM   P re ss ,   Ne w   Yo rk ,   p p .   1 7 5 - 1 8 2 .     [4 ]   X u   J .   a n d   W e isc h e d e R. ,   TRE C - Cro ss - L in g u a Re tri e v a l   a BBN ,   T h e   9 th   T e x Retri e v a Co n fer e n c e     ( T RE C - 9 ) ,   2 0 0 2 .     [5 ]   F e d e rico   M . ,   a n d   Be rt o ld i   N. ,   S tatisti c a Cro ss - lan g u a g e   In f o rm a ti o n   Re tri e v a u sin g   Nb e st   Q u e ry   T ra n sla ti o n s ,   P ro c e e d in g o t h e   2 5 t h   An n u a In ter n a ti o n a ACM   S IGIR  Co n fer e n c e   o n   Res e a rc h   a n d   De v e lo p me n in   In fo rm a t io n   Retrie v a l ,   A CM   P re s s,  Ne w   Yo rk ,   p p .   1 6 7 - 1 7 4 2 0 0 2   [6 ]   Nie   J Y .   a n d   S im a rd   M . ,   Us in g   S tatisti c a T ra n sla ti o n   M o d e ls  f o B il in g u a ir ,   Cro ss - L a n g u a g e   In fo rm a ti o n   Retrie v a a n d   Eva l u a t io n ,   W o rk sh o p   o Cro ss - L a n g u a g e   Eva lu a ti o n   Fo ru m,   C L EF   0 1 ,   S p ri n g e r - V e rlag ,   Ne Yo rk ,   p p .   1 3 7 - 1 5 0 2 0 0 2   [7 ]   Kra a ij   W . e a l. ,   Em b e d d in g   W eb - b a se d   S tatisti c a T ra n sla ti o n   M o d e ls  i n   Cr o ss - lan g u a g In f o r m a ti o n   Re tri e v a l ,   Co mp u t .   L i n g u ist.   2 9 v o l.   3,   p p .   381 - 4 1 9 2 0 0 3   [8 ]   Da e le m a n W . e a l. ,   Dif f e r e n A p p ro a c h e to   Cro ss   L a n g u a g e   In f o rm a ti o n   Re tri e v a l ,   n u m b e 3 7   in   L a n g u a g e   a n d   Co m p u ters S tu d ies   in   P ra c ti c a L in g u isti c s ,   Am st e rd a m ,   Ro d o p i ,   2 0 0 1 .     [9 ]   Da v is  M W. ,   Ne w   e x p e ri m e n ts  in   c ro ss - lan g u a g e   tex re tri e v a a t   NMS U‟ c o m p u ti n g   re se a rc h   lab ,”   T h e   5 t h   T e x t   Retrie v a Co n fer e n c e   ( T RE C - 5 ),   D.  K.   Ha rm a n ,   E d .   NI S T ,   Bo u l d e r,  CO ,   1 9 9 6 .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  8 ,   No .   5 Octo b er   2 0 1 8   :    392 3     39 32   3932   [1 0 ]   A d rian M . ,   Us in g   S tatisti c a Te rm   S i m il a rit y   f o S e n se   Disa m b ig u a ti o n   in   c ro ss - lan g u a g e   In f o r m a ti o n   Re tri e v a l ,   In f.   Retr.   2 v o l.   1 ,   p p .   71 - 82 2 0 0 0 .     [1 1 ]   K.   W .   Ch u rc h   a n d   P .   Ha n k s ,   W o rd   A ss o c iatio n   No rm M u t u a In f o rm a ti o n   a n d   L e x ico g ra p h y ,   Co m p u t a ti o n a l   L in g u isti c s v o l .   1 6 ,   n o .   1 ,   p p .   23 - 2 9 ,   1 9 9 0 .     [1 2 ]   G ian g   L T . e a l. ,   Ex p e rim e n ts  w it h   Qu e r y   T r a n sla ti o n   A n d   Re r a n k in g   M e th o d s ,   V iet n a m e s e - En g li sh   Bil i n g u a In f o rm a ti o n   Re tri e v a l.   S OICT ‟1 3 ,   Da n a n g ,   V ietn a m ,   2 0 1 3 .     [1 3 ]   M a e d a   A . e a l. ,   Qu e ry   ter m   D isa m b ig u a ti o n   f o W e b   Cro ss - lan g u a g e   I n f o r m a ti o n   Re tri e v a u sin g   a   S e a rc h   E n g in e ,   Pro c e e d i n g s o f   th e   5 t h I n ter n a ti o n a l   W o rk sh o p   o n   I n fo rm a ti o n   Retrie v a l   wit h   Asi a n   L a n g u a g e ( IRA L ’0 0 ) ,   A CM   P re ss ,   Ne w   Yo rk ,   pp.   25 - 32 2 0 0 0 .   [1 4 ]   Hu ll   D A .   a n d   G re f e n ste tt e   D A. ,   Qu e r y in g   A c ro ss   L a n g u a g e s Dic ti o n a ry - b a s e d   A p p ro a c h   to   M ul ti li n g u a l   In f o rm a ti o n   Re tri e v a l ,   Pro c e e d in g o th e   1 9 t h   A n n u a I n ter n a t i o n a l   ACM S IGIR  C o n fer e n c e   o n   Res e a rc h   a n d   De v e lo p me n in   I n f o rm a ti o n   Retrie v a l ,   A CM   P re ss ,   Ne w   Yo rk ,   p p . 49 - 57 1 9 9 6   [1 5 ]   Ba ll e ste ro L .   a n d   Cro f W B. ,   P h ra sa T ra n sla ti o n   a n d   Qu e r y   Ex p a n sio n   T e c h n iq u e f o Cro ss - lan g u a g e   In f o rm a ti o n   R e tri e v a l ,   Pro c e e d in g o th e   2 0 t h   A n n u a I n ter n a ti o n a ACM S IGIR  C o n fer e n c e   o n   Res e a rc h   a n d   De v e lo p me n in   I n f o rm a ti o n   Retrie v a l ,   A CM   P re ss ,   Ne w   Yo rk ,   p p .   84 - 91 1 9 9 7 .   [1 6 ]   G a o   J . e t   a l. ,   Im p ro v in g   Qu e r y   T ra n sla ti o n   f o Cro ss - lan g u a g e   In f o rm a ti o n   R et riev a u sin g   S tatisti c a l   M o d e ls ,   Pro c e e d in g o th e   2 4 th   A n n u a In ter n a ti o n a ACM S IGIR  C o n fer e n c e   o n   Res e a rc h   a n d   D e v e lo p me n in   In fo rm a t io n   Retrie v a l ,   A CM   P re s s,  Ne w   Yo rk ,   p p .   96 - 1 0 4 2 0 0 1   [1 7 ]   Ja n g   M G .,   e a l . ,   Us in g   M u tu a In f o rm a ti o n   to   Re so lv e   Qu e r y   T ra n sla ti o n   Am b ig u it ies   a n d   Qu e ry   Ter m   W e ig h ti n g ,   Pro c .   o t h e   3 7 th   An n u a M e e ti n g   o t h e   Asso c i a ti o n   f o r Co mp u t a ti o n a l   L i n g u isti c s ,   1 9 9 9 .   [1 8 ]   G a o   J . e a l. ,   Re so lv in g   Qu e r y   T ra n sla ti o n   Am b ig u it y   u sin g   a   De c a y in g   Co - o c c u rre n c e   M o d e a n d   S y n tac ti c   De p e n d e n c e   R e latio n s ,   Pr o c e e d in g o th e   2 5 t h   A n n u a l   In ter n a ti o n a ACM   S IGIR  C o n fer e n c e   o n   Res e a rc h   a n d   De v e lo p me n in   I n f o rm a ti o n   Retrie v a l ,   A CM   P re ss ,   Ne w   Yo rk ,   p p .   183 - 1 9 0 2 0 0 2   [1 9 ]   M o n z   C .   a n d   D o rr  B. ,   Itera ti v e   T ra n sla ti o n   Disa m b ig u a ti o n   f o C ro ss - lan g u a g e   In f o r m a t io n   R e tri e v a l ,   Pro c e e d in g o th e   2 8 th   A n n u a In ter n a ti o n a ACM S IGIR  C o n fer e n c e   o n   Res e a rc h   a n d   D e v e lo p me n in   In fo rm a t io n   Retrie v a l ,   p p .   5 2 0 - 5 2 7 2 0 0 5 .   [2 0 ]   Zh o u   D .,   e a l . ,   Disa m b ig u a ti o n   a n d   Un k n o w n   T e r m   T ra n sl a ti o n ,   Cro ss   L a n g u a g e   In f o rm a ti o n   Retrie v a l ,   S p rin g e r - V e rlag   Be rli n   He id e lb e r g   (CL EF   2 0 0 7 ) ,   p p .   64 - 71 2 0 0 8   [2 1 ]   Du q u e   A . e a l. ,   CO - g ra p h A   Ne w   G ra p h - b a se d   T e c h n iq u e   f o Cro ss - li n g u a W o rd   S e n se   D i sa m b ig u a ti o n ,   Na tu ra L a n g u a g e   E n g i n e e rin g v ol .   21 ,   n o .   5,   pp.   7 4 3 - 7 7 2 2 0 1 5 .   [2 2 ]   Re k a b sa z   N . e a l. ,   A d d re ss i n g   C ro ss - l in g u a l   W o rd   S e n se   Disa m b ig u a ti o n   o n   L o w - De n sit y   L a n g u a g e s:   A p p li c a ti o n   t o   P e rsia n ,   2 0 1 7 a r X iv . o rg   >   c s >   a rX iv : 1 7 1 1 . 0 6 1 9 6 .   [2 3 ]   S h a b d a n jali  E n g li sh - H in d i   Dic ti o n a ry   f ro m   IIIT   Hy d e r a b a d   h tt p : // lt rc . ii it . a c . in / o n li n e S e rv ice s/Dic ti o n a ries /Dict_ F ra m e . h tm l   [2 4 ]   P o rter stem m e a h tt p s:// w ww . d ru p a l. o rg /p ro jec t/ p o rters tem m e r   [2 5 ]   Hin d W ORD NET   a t:   ww w . c f il t. ii tb . a c . in /w o rd n e t/ w e b h w n /       B I O G RAP H I E S   O F   AUTH O RS         Pra tib h a   B a jp a i .   Co m p lete d   M . S c   (CS f ro m   Un iv e rsit y   o f   A ll a h a b a d   i n   2 0 0 3   a n d   M . T e c h   (IT in   2 0 1 1 .   P re se n tl y   p u rsu i n g   P . h d   in   Co m p u ter  S c ien c e   f ro m   Am it y   Un iv e rsit y ,   L u c k n o w ,   In d ia.  M y   re se a rc h   a re a   is  Cro ss   Lan g u a g e   I n f o rm a ti o n   Re tri e v a f o In d ian   la n g u a g e s.      Dr .   Pa r u Ve r m a A ss it a n P r o f e ss o in   Am it y   Un iv e rsit y ,   L u c k n o w .   Co m p lete d   h e P . h d   in   Co m p u ter  S c ien c e   f ro m   Am b e d k a Un iv e rsit y ,   L u c k n o w   in   2 0 1 2 .   He a re a   o f   re se a rc h   a r e   S e n se   Disa m b ig u a ti o n ,   S e m a n ti c   Web ,   In f o rm a ti o n   Re tri e v a l,   On t o lo g ies   e tc.          Pro f.   (Dr . S y e d   Q a m a r   Abb a s .   Cu rre n tl y   w o rk in g   a Dire c to G e n e ra l,   Am b a li k a   In stit u te  o f   M a n a g e m e n &   T e c h n o lo g y ,   Lu c k n o w .   He   h a c o m p lete d   M . S .   (Co m p u ter  S c ien c e f ro m   BI T S   P IL A NI.  He   h a b e e n   a wa rd e d   P h . in   " Co m p u ter  Orie n ted   stu d y   o f   Qu e u in g   m o d e ls" .   He   h a s   2 4   y e a rs o f   te a c h in g   e x p e rien c e   a n d   h a s su p e rv ise d   1 5   P h . D.  t h e sis.  H e   h a s 9 0   p u b li c a ti o n s t o   h is  c re d it .       Evaluation Warning : The document was created with Spire.PDF for Python.