Int ern at i onal  Journ al of Ele ctrical  an d  Co mput er  En gin eeri ng   (IJ E C E)   Vo l.   8 , No .   6 Decem ber   201 8 , p p.   4533 ~ 4544   IS S N: 20 88 - 8708 DOI:  10 .11 591/ ijece . v8 i 6 . pp 4533 - 45 44          4533       Journ al h om e page http: // ia es core .c om/ journa ls /i ndex. ph p/IJECE   A Context - ba sed  Nume ral Readin g Techni qu e for Text to  Sp ee ch S ystems       So um ya Pri yada rsi ni P anda 1 A jit Kum ar Nay ak 2   1 Depa rtment of  CS E   Sili con   Inst it ute of Te chnolog y   Bhubane sw ar,   India   2 Depa rtment of  CS   &   IT   Siks ha ‘O’ Anusandhan  Univer sit y   Bhu bane sw ar,  India       Art ic le  In f o     ABSTR A CT   Art ic le  history:   Re cei ved   N ov   6 , 2 01 7   Re vised  Jun  22 , 201 8   Accepte J un   30 , 201 8       Thi pape pre s e nts  novel   t ec h nique   for  contex base num era l   rea ding  in   India l angua g e   te xt  to  spee ch  s y stems .   The   m odel   uses  se of  rule to  det ermine   the  c onte xt  of   th nu m era pronunc iation  and   is  b ei n int egr ated   with  the   wave f orm   conc at en at i on  te chni qu to   produc spee c out  of  the  input   t ext  in  Ind ia la ngu ag es.   F or  thi purpose ,   the   thre e   Indi an   la ngu age s   Odia,   Hindi  and   Benga li   ar con sidere d.   To  an aly z the   per form anc of  the  proposed  te chn i que,   se of  exp eri m ent are  per form ed  conside r ing  diffe r ent  cont ex of  num e ral   pronun ci a ti o ns  and  th resul t are   compare with  exi st ing   s y llable - base t ec hniqu e.   The   r esult obtained  from   diffe ren t   e xper iments   show the   eff ec t ive ness  of  the   p roposed  te chni q ue  in  produc ing   int el l igi bl e   spee ch  out  of  th ent er ed  te xt  ut te ran ce compar ed  to  the   exi st in te chni qu eve w i th  v er y   l ess stora ge   and e xec ut ion  t ime .     Ke yw or d:   C on cat e native  synthesis   Indian   la ngua ge s   Sp eec sy nth es is   Text - to - S peec syst em s   Wav e f or m  Con cat enati on  Tech nique   Copyright   ©   201 8   Instit ut o f Ad vanc ed   Engi n ee r ing  and  S cienc e   Al l   rights re serv ed .   Corres pond in Aut h or :   Soum ya  Pr iy adar sini Pa nda ,   Dep a rtm ent o f C SE ,   Sil ic on   In sti tut e of Tec hnolog y ,   Bhuba nesw a r,  Od is ha, I nd ia .   Em a il sp pand a.cse@ gm ai l.c om       1.   INTROD U CTION     The  goal   of   spe ech  synthesis  is  to  dev el op  m achine  hav i ng   a intel li gib le natu ral  soundin voic for  co nv ey in inf or m at ion   to  the  us er in  desire voic e,  la nguag a nd  acce nt   [1 ] [ 2] Re search  in  th area  of  sp eec synt hesis  is  a   m ulti - discipli na ry  fiel with   ap plic at ion from   acou sti phonet ic (s peec producti on  and  pe rcep ti on)   [ 3]   over   m or ph ology  ( pro nunciat ion)   [4]   and   sy ntax  ( par ts  of  sp eec h,   gr am m ar)   [ 5] to   sp eec sig nal  processi ng  (sy nth esi s )   [ 6] R ecent  re searc in  t he  a rea  of  Sp eec an L angua ge  P r oce ssing  enab le m achines  to  sp ea na turall li ke  hu m ans   [7 ] .   T ext - to - S peech  (TTS syst em   i this  as pect  c onve rts   natu ral  la ng ua ge  te xt  into   it co rr e spo nd i ng  s peec [ 8 ] .   The  i ntell igible  sp eec synt hesis  syst em hav e   wides pr ea a re of  ap plica ti o ns   in   de velo pi ng  hum an co m pu te interact ive  syst em   [9]   li ke,   ta lkin c om pu te syst e m s   [10] ,   ta lking   t oys   [11] et c.  S pe ech  synt hesis,   com bin ed  wi th  sp eec re c ogniti on,  al lo ws  f or  interact ion  wit m ob il de vices  via  natu ral  la ngua ge  proce ssing  inter face s. [ 12 ]   An al yz ing  the  i nput  te xt  an conve rting   it   into  c om pu te rea dab le   for m   fo ob ta i ning  the  a ppr opri at pronu nciat ion   play an  im portant   ro le   i a ppr opr ia te   sp eech   un i pro du ct io a nd  f or  it unde rstan dab il it by   the  li ste ners  [ 13 ] Te xt  a nal ysi is   the  fr ont  en la ngua ge  pr oce sso of  the  TT syst e m   [14] wh ic acce pts  input  te xt,  an al yz es  it   and   org anize s   into m anag ea ble li st of   w ords [1 5 ]   An   in put  te xt  m ay   con ta in  sy m bo ls  (doubl quote,  com m a,  repor t et c),  nu m ber s,  a bbr eviat ion or  sp eci al   sym bo ls   [ 16 ] .   Te xt  norm alizat ion   in volves   tra ns f orm at ion   of  t he  r aw  i nput  te xt   into   the  e quival ent  of  wr it te words  [ 17 ] It  al s in vo l ves  c onve rting   al le tt ers  of  lo wer case  or  uppe case,  re m ov ing   pu nctu at ion s,   acce nt  m ark s,  stop   words  or  too   c omm on   words  (like  D on ’t”  vs.  “D no t” I’ m ”  vs .   “I  am ”,  “C an’ t”   vs .   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.   8 , N o.   6 Dece m ber  2 01 8   :   4533   -   4544   4534   “cannot” et c).   Sentences  are   gr oup  of  w ord  segm ents  and   these  se gm ents  m ay  be  an  acronym sing le   word  or  num eral  [ 18 ] Wh il for  the   ab bre viati on or  acr on ym s,  on e   ti m no rm al iz ed  pro nunciat io ns  m a be   m ai ntained,   the  pro nuncia ti on   of  num erals  var ie de pe ndin on  the  c onte xt  of  it use   in  the  sente nc or  word [ 1 9 ]   num ber   m ay  be  prono un ce di ff e ren tl in   differe nt  sit ua ti on a nd   nee ds  to  be   co nvert ed  int their   appr opriat prono un cea ble  f or m to  pro d uc the  desi red   sp eec outp uts   [1 8 ] Ta ble   sh ows  s om exam ple  pro nunciat ion  o the  E ngli sh  n um erals  in  dif fer e nt  sit uations.  In   t his  aspec m os of   the  f or ei gn   la ng uages  li ke   En glish  a re  w el researc hed  [ 1 9],  w her e   the  pr onunci at ion   r ules  are   si m pler  due   t the   oc cu rr e nce  of  pro nunciat ion   rep et it ion afte 20.  (e. g. Tw enty  one tw ent tw o …,  Th ir ty   on e,  Th irt t wo ,…etc) H oweve r,  the  Indian  la ng uag TT te ch niques  sil pr es ents  gap   f or  it acce ptance  by   the  us ers  due  to  the  un a vaila bilit of   a pprop riat e   pronu nciat ion   ru le s.  T he  pr ob a bili ty   of   re petit ion   of  pro nunciat ion   is  r el at ively   ver le ss  in  Indian  la ng uages   at   wo r le ve ( e.g pro nunc ia ti on of  the   nu m ber in  H ind i:   21 - “i k - kis”,  22 - baa - i s” 23 - “t ei - s”,  et c.).   This  inc reases   the  com plexity   of   the  n um eral  read in m od ule.   The refor e m os of   t he   researc hers  us e   si m ple  dig it   b ased  rea ding  m od el that  st or es  the  rec ord ed  unit fo sin gle  dig it from   to  for  pro du ci ng   the  desire outpu sp ee ch   but   did   not  addre ss  the  con te xt  base nu m eral  read in g Howe ver,  con te xt  base nu m eral  read i ng   play an   im po rtant  r ole  to  en ha nce  the   unde rstan da bili ty   of   the  pr oduc e sp eec h.   It  is  al ways  easi er  to   unde rstan the   pr ic of   so m it e m   if  it   is  prono un ce base on  posit ion   base read i ng  li ke  “fi fty  f ive thousa nd   five  hu ndre d”  instea d of  pron ouncin “fi ve  five  fi ve  zer zer o”.  Th focus  of   this pa per is t address  the c onte xt  base d num eral pronu nci at ion  in  In dian l anguag e  sce na rio.       Table  1.  E xam ple  Pr on un ci at ion o a   Nu m ber  in   Dif fer e nt S cenari os   Exa m p le   Ty p e   Pron u n ciatio n   2015   Date/Quan tif ier   Two th o u san d  f i f teen   2015   Ph o n e nu m b er   Two zer o  on e f iv e   0 .50 2   Nu m b e r   Po in t f iv e   k n o t tw o   2 0 .15   Deci m a l nu m b er   Twenty  po in t on e f iv e       Ther e   are   on l few e m od e ls  docum ented   f or  sp ee ch   s ynthesis  i Indian   la ngua ge [ 20 ] - [ 24 ] howe ver  the  c on te xt  dep e nd ent  num eral  pronu nciat ion s   ha not  been  w el addresse d   [ 25 ] - [ 28 ] The   dhva ni   TTS syst em  f or  Ind ia la ngua ge   [25 ] , m a intai ns  the  pronu nc ia ti on s of nu m erals up  to h undred as  t he  phonet ic   represe ntati on   and  us e   the  po sit io pronu nciat ion for  ‘hu ndre d’,  ‘t hous a nd’ et posit io ns  at ta ched  to  t he   up  to  hundre pro nunciat ion   for   read in the  nu m erals.  However,  the  co ntext  dep e ndent  nu m eral  read ing   aspect   is  no con si dered  in  sp eec pro duct ion.  r ule - based   nu m eral  read in m et hod  is  pr ese nted  in  [ 18 ]   f or  the  Od ia  la ngua ge.    In   t his  pap e r,   we  pr ese nt  pro nunciat io r ule  bas ed  a ppr oach  f or  the  up  to   hu ndred  pro nunciat io ns   and   i ncorpo rate  it   with  the  wav e f or m   concat enati on   te c hn i qu ( W CT )   [29]  to  pro duce  ou t pu spe e ch  f or   Indian  la ng uage  nu m erals.  Also the  co nte xt  dep e nd e nt  nu m eral  pr onunc ia ti on   aspects  of   the  num erals  are   consi der e to  pro du ce  natu ra sp eech  se gme nts  to  increas the  underst and a bili ty set   of   ex per im ents  are  perform ed  to  evaluate  the  pe rfor m ance  of  the  pr op os ed   m od el   com pa red   to  the  exi sti ng   syl la ble  base te chn iq ue   with   res pect  to   di fferent  c onte xts  of  num eral  pronu nciat ion.  A nd  the   res ults  ob ta ine d,  s hows  t he   eff ect ive ness o the  prop os e d t echn iq ue c om par e t the  exi sti ng  tech niqu e in  diff e re nt c on te xts.   The  r em ai nd er  of   t he  pa pe i orga nized  as   fo ll ows.   I th nex sect i on,   we  discuss e about  the  wa ve form   con cat e natio n   te chn iq ue  as  t he  pr opos e nu m eral  read i ng   m odule  is  inco rpor at e into  the  ru le   base con cat e native  appr oach.  Sect ion   descr i bes   the  detai ls  abo ut  the  pro pos ed  m od el   and   the  co ntext  de pe nd e nt  nu m eral  pro nunciat ion   r ules.  The  e xperim ental   m et ho do l og and  res ult  an al ysi fo r   our   te chn i qu e   is  give i sect ion   4,  sho wing  the  ef fec ti ven ess  of  thi te chn iq ue  in  pro du ci ng   inte ll igible  sp eech Sect ion   co nclu des  the  discussi on,   exp la ini ng   th find i ng of   our  ex per im ents  and   the  f ut ur directi ons  of   t his  w ork wh e r e   furthe r work  m ay   be unde rtak en.       2.   WA VEFO R M CO NCAT ENATIO T ECHNIQ UE (WCT)   As  c om par ed  t E ng li s h,   m os of  the  India la ng uag e ha ve  a ppr ox im a te ly   twic as  m any  vowel s   and   c on s onant al on with  nu m ber   of  pos sible  conj un ct   char act e rs  for m ed  by  com bi nation  of   tw or   m or char act e rs  [ 28] The refo re,  la rg nu m ber   of   sp eec unit are  nee ded   t be  sto re in   the  s peech  da ta bas e   wh il e a con cat enati ve  spe ech  synthesis t ech ni qu e is use f or prod ucin un interr up te spe ech. Howe ver , W CT  [29] u ses  only  3 5 basic s peec unit s of the  c on s ona nt ( C) a nd   vowel  (V) s ounds   i ns te a d of  st or i ng  all  re qu i re sp eec un it in   the  database,  and   der i ve  al oth e r   unit us ing   r ule  base wav ef orm   con cat enati on   te ch nique.   The  li st o f 3 5 b asi c s peec h un i ts are li ste i n Table   2.     Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708     A Co ntext - base N um er al Re adin Tec hniq ue  for Tex   ( Soumy Priy adarsi ni P anda )   4535   Fo pro duci ng   the  ou t put  spe ech  f or   t he  r equ i red   s peec segm ents,  a   fr act io n - base wa vefo r m   con cat e natio te chn iq ue   is  use d.  The   f racti on  dua rio ns   a r determ ined  dynam ic al l from   the  sp eec data   base on  the  vowel  on set   po i nt  identific at io te ch nique  [ 29] These  fr act i on durati ons  a re  co ns ide re f or   the   wav e f or m   concat enati on   pro cess  to  obta in   the  desire s peech   unit s.  Wh il the  r ul e - base c on cat enati ve   te chn iq ue  (RCT)  [ 28]   us es  sta ti fr act ion   durati on  f or   c oncat enati on  th us of   dyna m ic   fr act ion   durati on s   in  W CT  [29]   enh a nces  t he  qual it of   s peec bei ng  pro du ced.  T his  f ract ion   base co nc at enati on   pro cess  is   consi der e for  the  de pe nd e nt  t ype  of u nit  pa irs  s uch  as  Co nsona nts  at ta che to  Ma tra/ F al a/ Halant/ Cons on a nts   and  the  w ho le   wa ved at is  us e f or  pro duci ng  the   in de pende nt  unit   pairs  li ke  Co ns ona nts  at ta ched  t Con s onant/  V ow el Vowels  at ta cched   to  Con s ona nts/Vowel s.  Fig ur sh ows  the  p ort ion   based   wa vefor m   con cat e natio n process  to pr od uce th e  s ound  \ re” fro m   \ ra”   an \ ae”   us ing  t he WCT t echn i qu e .       Table  2.   Sp eec h un it s i Database                       Figure  1.   W a ve  p at te r n of   “/r e”   (C - M) s ound a fter c on c at enati ng po rtion s  f r om   /ra   an / ae   s ound       3.   PROP OSE D MO DEL   In   t his  sect io n,  we  pr ese nt  pro nunciat ion   ru le - base te c hn i qu e   f or   pro du ci ng  sp eec segm ents  for   the  Indian  la ng uag nu m erals  by  identify ing  the  phon em l evel  si m il aritie in  the  nu m eral  pr on un ci at io ns   i the  thre co ns i der e la ng ua ge ( Od ia Hindi,  a nd   Be ngal i).  Fig ure   shows  the  o verv ie of  the   pro po s e nu m eral  read i ng   m odule  an the  detai ls  of   t he  phases   are  disc us se ne xt.  Howe ver,  first  c on te xt   identific at ion p ro ces s is  perfor m ed  to ide ntify  the c on te xt  of   the num eral pronu nciat ion as  discusse d ne xt.           Figure  2.   Text - to - s peech co nv ersio n process   Set of  sp eech u n its  in th e datab ase   \ a   \ o   \ ch a   \ tth a   \ th a   \ pha   \ lla   \ aa   \ ka   \ ch h a   \ dda   \ da   \ ba   \ la   \ ee    \ kha   \ ja   \ ddha   \ dha   \ bha   \ sh a   \ uu   \ ga   \ jh a   \ nna   \ na   \ ma   \ ha   \ ae   \ gha   \ tta   \ ta   \ pa   \ ra   \ ya   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.   8 , N o.   6 Dece m ber  2 01 8   :   4533   -   4544   4536   3.1   Conte xt D e pe ndent N umer al Pr on u nciati on     The  co ntext  de pende nt  num eral  pronu ncia ti on   is  an  im portant  issue  for  pro duci ng   m eaning f ul  sp eec sam pl es  for  the  nu m erals.  The  s i m ple  dig it   read in te ch nique  m ay  no pro vid the  de sired   unde rstan dab il it in  al sit uations .   F or  exa m ple,  wh il re adin a   la r ge r   quantit or  pri ce  say   1,54, 954  by   si m ply  read in the  dig it as   on e - fi ve - fou r - nin e - five - f our”   m akes  the  li ste ner  thin t r earra ng e   the   num ber s   to  unde rstan the  spok e pri c or   quantit y;   appr opriat pronu nciat ion   as   on e - la kh,  fifty   fo ur - t hous a nd nin e - hundre d,  fifty - four  m ay   m ake   so m sense   to  the  li ste ner s T he  sim il ar  var i at ion   of  pronu nciat ion  al so  e xten ds   to the I ndia la ngua ges.  Ta ble . 3  show  s om exam ple n um e rals and  thei pro nunciat io in  d iffe ren t co nte xt in   En glish a nd Odia l an gu a ge       Table  3.   Pronu nciat ion   of a  N um ber   in   Dif fe ren Scena rios   Exa m p le   Ty p e   Eng lish   Pron u n ciatio n   Od ia Pr o n u n ciatio n   ୦୨ - ୦୭ - ୨୦୧୫   or   ୦୨ / ୦୭ / ୨୦୧୫   Date   Ju ly  two two  tho u san d  f if teen   Du i - saat - d u i hajaar  p an d ara”   ୦୨ : ୪୦   Ti m e   Two f o rty   Du i - ta  - ch aalish   ୦୬୭ - ୨୦୧୫   Ph o n n u m b er   Zer o  six  sev en  f o u two  ze ro  o n e f iv e   Su n - ch h a - saat - ch a ari -   dui - su n - aek - p aanch   ୨୦୧୫   Qu an tif ier   two  tho u san d  and   fif teen   Du i - h ajjar - p an d ara   ୨୦୧୫ . ୧୫   Nu m b e with   Deci m a l po in ts   Two th o u san d  f i f teen  po in o n e f iv e   Du i - h ajjar - p an d ara - d as m ic - p an d ara       num ber   in  diff e ren I nd ia la ngua ges  m ay  be  pro nounce by  si m ply   read in the  dig it wh il m ean  for  qu a ntit [21],  phone  nu m ber   or   cred it   card   num ber et c.;  the  nu m ber   m ay   be  read   by  the  relat ion s hi with  it po sit ion w hile  m eant   fo pr ic in di cat or   or   ye ar.  In   case  of  fr a ct ion   value  the   le ft  par bef or the  decim al   po int  is  read  ba sed   on  the  relat ionship   bet ween  the  posit ion   of  the  cha racter   a nd  the  num ber after   the  pe rio are  read   as  si ngle   dig it s.  Wh il r eadin date  people  al ways  read   as  “ae k - tin - dui - ha j aa r - s ohal a”   for  the   date  01 - 03 - 2016”  in   triple form at   (d d - mm - yyyy   or   dd/m m /y yyy) Als o,   for  rea ding  ti m int erv al   separ at e by  colo the  f or m at   is  diff eren f or   t he  num ber   befor the  colo an after  the  col on.  T inco rpor at al the  con sid e re var ia ti on  of   nu m eral  pr onunci at ion   a   set   of   m anu al ly   cod ed  ru le are  pr e par e d.  T he  con te xt  ide ntifi cat ion   ru e a re   presente belo w,   w her e   is  t he  nu m ber   of  dig it in   the   nu m ber   and d i   is t he  it h digit  in  the  nu m ber .   Conte xt de p endent  pronuncia ti on   rules:   Rul e   1:    IF n  >= 10   AN D no  sepa rati on  in  b et we en    THEN  per form   digi t rea d ing   Rul e   2:    IF n  >= 10     AN D d i   sepa ra ted b y   ,     THEN  per form   positi on  b ase di git   r ea ding   Rul e   3:   IF di git s sep arat ed  b y   - or  /” i a tri pl et format     THEN  per form   dat e   form at   d igi t   rea d ing   Rul e   4:     IF  digi ts se p arat ed  b y   - “    THEN  per form   digi t rea d ing   Rul e   5:   IF di git s sep arat ed  b y   : ”    THEN  per form   t ime  form at   dig it  rea d ing  (dig it   r ea ding   for  dig it s   bef ore   :”   and  positi on  base d   d igi ts  re adi ng   for   digi ts   aft er   :”   Rul e   6:   IF di git s sep arat ed  b y   . ”    THEN  Perform   positi on  b ase di git   r ea ding   for   di git s be for e”.” a n digi t   re adi ng   f or  digits   after  .   Rul e   7:   IF num ber   foll o wed  b y   pri ce i nd ic a tor    THEN  per form   positi on  b ase di git   r ea ding   Rul e   8:   IF rul no found   for  th d ig it for m at     THEN  per form   digi t rea d ing   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708     A Co ntext - base N um er al Re adin Tec hniq ue  for Tex   ( Soumy Priy adarsi ni P anda )   4537     3.2 .   Pron uncia tion Rules   As  the   pr opos e te ch nique  f or  sp eec sy nth e sis  stores   only   so m basic  sp e ech  un it a nd  pro duce  al the  sou nds  f rom   these  basic  un it base on   so m sp eci fied  r ules,  t he  prono un cea ble  unit f or   num er al ar e   need e to  be   identifie a nd  m app ed   to   the   res pecti ve  ch aracte e quival ents  for  t he  s ounds   to   pro du ce  the   desire outp ut   sp eec h.   Also ,   there  is  no  ge ner al iz ed  r ule  avail able  f or   t he  pr onunci at ion   of  num ber s   up   t 100.   H ow e ver,   for  num ber gr eat er  t han   100,  re petit ion   of  pr onunci at ion   m ay   occu (e. g. 122  “e sou - baais”,  12 3 -   ek  sou - te is” e tc   in  Hind la ngua ge.   T her e fore,  the  nu m erals  after  10 m ay   be  fo rm ed  by   con cat e natin the  10 0th  10 00th, …et place  pro nunciat io ns   with  t heir  r especti ve  up  t 100  pro nunc ia ti on s.   We  pr e pa re  set   of   pro nunci at ion   ru le f or  ob ta ini ng   the  up  to  100  pr onunci at ion s The  pro nounceable   un it  identific at ion p ro ces s is  discu ssed belo w.   The  nu m ber from   1 - a nd   al 10 th   posi ti on   pronu nciat ion a re  nee de to  be  m ain ta ined   f or   perform ing   sing le   di git  read in g.   T he  pro nunciat ions  of  the  nu m erals  fr om   1 - a nd  10th  posit io ns   are   pr ese nted  in  T able  and   Ta bl resp ect ive ly   fo the  cons idere l angua ge s.  Also,  there   m ay  be  si m i la rit no ti ced  in  t he pr onunci at ion s  of the  num erals in t he  th ree c on si der e la nguag e s.        Table  4.   Pronu nciat ion   of  Num erals  up to 1 in  the t hr ee   Con si der e La ngua ges   Nu m eral   Od ia   Hin d i   Ben g ali   1   Aek   Aek   Aek   2   Du i   Do   Du i   3   Tin   Tin   Tin   4   ch aari   Ch aar   Ch aar   5   Paan ch   Paan ch   Paach   6   Ch h a   Ch h e   Ch h o y   7   saate   Saat   Sh aat   8   Aatth e   Aath   Aat   9   na   n au   noy       Table  5.   Pronu nciat ion   of  Num erals   for 10 t Po sit io ns   i th e thr ee   Co ns id ered Lan guag e s   Nu m eral   Od ia   Hin d i   Ben g ali   0   Su n   Su n y a   Sh o o n n o   10   Dasa   Das   Do sh   20   Ko d iae   Bis h   Ku ri/bis h   30   Tir ish   Tish   Tir ish   40   Ch aalish   Ch aallish   ch aallish   50   p achaas h   p achaas h   p o n ch aash   60   saath iae   saatth   Sh aat   70   saath iae   sattar   sh o tto r   80   asi   ash i   ash i   90   n ab e   n ab e   n o b b o i   100   sah e   sau   Sh o   1000   h ajaar e   h ajar   h ajaar   1 0 0 0 0 0   lak h y a   laak h   lak sh   1 0 0 0 0 0 0 0   k o ti   k arod   k o ti       As  in  I nd ia la ngua ges,   t he  pro ba bili ty   of   re petit ion   of   pro nunciat ion  is  r el at ively   ver le ss  at   w ord   le vel,  we  t ry  to  de rive  t he  pronu nciat ion   si m il arities  at   phon em le vel  for  the  up  to  100  pro nunciat ions.  F or   exam ple,  w hen  the  num eral  is  pr e sent  at   un it   or   10th   place   it   has  one  ty pe   of  pro nunciat ion   at   be ginnin or   end.  T he  pro nunciat io sim i la riti es  in  the  three  c on si de red   la ngua ges   for  at   un it   and   10th  p la ce  are  pr ese nted   in   Table  a nd  Table  res pe ct ively Consi der i ng  s uch  si m il arities  in  pro nunciat io ns   set   of  si m il arity r ules  are pre pa red f or the  pro nunci at ion for n ume rals f ro m  1 1 - 99.       Table  6.  E xam ple  SCR I PT s a nd  Pro nunciat ion R epeti ti ons  for  2”  at  te nth  Plac e   Nu m eral   Od ia   Hin d i   Ben g ali   21   Eko - is   Ik - k is   Aek   22   Baa - ish   Baa - ish   Baa - ish   23   Te - ish   Te - ish   Te - ish           29   An a - tir - ish   Un - t - ish   u n o tirish           Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.   8 , N o.   6 Dece m ber  2 01 8   :   4533   -   4544   4538   Table  7.  E xam ple  Sc ripts   a nd  Pronu nciat ion  Re petit ion for  “2 ” at  unit   Pla ce   Nu m eral   Od ia   Hin d i   Ben g ali   12   Baa - ra   Baa - ra   b aro   22   Baa - ish   Baa - ish   b aaish   32   Ba - tish   Bat - ish   b o ttrish           92   Baya - n ab e   b ay an ab e   Bira - n o b b o i       The  pro nuncia ti on of  num erals  with  sta rtin a nd  e nd i ng  s i m i la riti es  in  the  th ree  c onsi der e la ngua ge are  pr ese nted   in  T able  8,  Ta ble  an Ta ble  10  resp ect ively   for  O dia,  Hindi,  and  Be ngal la ngua ge  a nd  f or  ea c of   the  la ngua ge   and   sim il arity  three  sta te are  m ai ntained  at   phon em lev el   as  sho wn   i Fig ur a nd  base on   prop e m atch   the  res pecti ve  pro nouncea ble  un it are  e xtracted  f r om   the  sp eec dat abase  to  pro du ce  th e   ou t pu sp eec h.       Table  8.   Pronu nciat ion   of  Od i N um erals  with  Sta rting (C olu m n W ise a nd   En ding  (Row  W i se) Si m il arity   Pron u n ciatio n   aek    b aa    te    ch au     p an     ch h au     sat    ath     an a   Ra   aeg - aa -   ra    Baa - ra   Te - ra   Ch au - da   p an - da - ra    so - ha - la    sat - a - r   Ath - a - ra   Un e - ish   Is   aek - oi - s   Baa - is    te - tis   Ch au - b is    p an -   ch is    ch h - b is    sat - e - is    ath -   e - is    An a -   tiris   Ris   aek - ti -   ris    ba -   tis    te -   tis    ch au -   ti - ris    p ain -   tiris    ch h a - tis    sain -   tiris  -     ath - a tir is     An a -   ch alis   Lis   aek - ch alis   ba - ya - lis    te - ya -- lis    ch au - ra - lis    p ain -   ch alis    ch h a -   ya - lis    sat - ch alis    ath - a -   ch alish     An a -   ch as   Ban   aek - b an   ba -   b an     te -   p an     Ch au -- b an     p an -   ch aaban   -   Ch h a -   p an     sat -   aa - b an     ath -   aa - b an     An a -   sath i   Sath i   aek - a - sath i   ba -   sath   te -   sath   ch au -   sath   p an -   sath   ch h a -   sath   sat -   sath i   ath - - sath   An a -   sto ri   Stari   aek - a -   stari   b aa -   stari    te -   stari     ch au -   stari    p an - ch - stari    ch h a -   stari    sat - a -   stari    ath - a -   stari    An a -   asi   Asi   aek - a -   asi    ba - ya - asi    te - ya - asi    ch au -   raa - asi    p an -   ch aa - asi    ch h a -   y aa - asi    sat - aa - asi    ath - aa - asi    An aa -   n ab e   Nab e   aek - aa - n ab e   ba - ya - n ab e   te - ya - n ab   ch au - ra - n ab   p an - ch aa - n ab   ch h a - y aa - n ab e   sat - aa - n ab   ath - aa - n ab   an e - sat         Table  9.   Pronu nciat ion   of  Hindi  N um erals   w it Starti ng  (Colu m n W ise )   a nd  E nd i ng ( R ow  W i se) Si m ilarity     Pron u n ciatio n   ik   b aa    te   ch au   p an   ch h a   sat   ath   un   Raa   Gy a - raa     b aa - raa   te - raa     Ch au -   d aa   p an - d - ra    So - la   sat - raa     ath - aa - raa    un - ish   Is   ik - is - is    Baa -   is    te - is    Ch au - b is    pa - ch - is   Ch h a - b is   sat - aa - is   ath - aa - is   Un - ti - sh   Tis   ik - a - tis   ba - tis    te - tis    ch au - tis    p ain - tis   Ch h a - tis    sain -   tis    ath - tis    un -   ch alis   Lis   ik - ch a -   - lis    ba - ya - lis    te - ya - lis    ch au - ra - lis    p ain - ta - lis    Ch h a -   ya - lis    sat - ch a - lis    ath - ch a -- lish     Un -   ch as   Ban   ik - ya - b an     ba - b an     te -   p an     Ch au - b an     pa - ch -   p an     Ch h a - p an     sat - aa - b an     ath - aa - b an     un -   sath   Sath   ik - sath     ba -   sath     te -   sath     ch au -   sath     p ain - sath     ch h a -   sath     sat -   sath   -   ath - a -   sath     Un -   atar   Tar   ik - a - tar   b aa -   tar     te -   ta   ch au -   tar      pa - ch a -   ta   Ch h a - tar    sat - a - ta   ath - a - tar     una - asi   Asi   ik - ya - asi    ba - y - asi    te - ya - asi    ch au -   raa - asi    p an -   ch aa - asi    Ch h a - y aa - asi    sat - aa - asi    ath - aa - asi  -   un - ya -   n ab e   Nb e   ik - ya - n b   ba - y - n b   te - ya - n b   ch au - ra - n b   p an - ch aa - n b   ch h a - y aa  - n b   sat - aa - n b   ath - aa - n b   ni - n y a -- nbe       To  der i ve  al t he  pro nunciat ion s   f or  the   num erals,  we   ha ve   prepa re different  gro ups  c on si der i ng  th e   above   disc us se sim il arities.  We  ha ve  cl assi fied  t he  pro noun cea ble  unit to  be   int t hr e sta te of  gro up s   as:   Be gin   sta te   (B ) Mi dd le   sta te  (M an E nd  st at (E) .   De pe ndin on   t he  posit ion   of  th nu m ber   i.e.  unit   or  10 th the  sta te are  de te rm ined  a nd  the  pr onunci at ion  is  de rive d.  Fo r   exam ple  f or   obta inin t he   pro nunciat io of   nu m ber   ha vi ng   le ng t L,  a {n 1 n 2 n L },  The re  exist  s ta te re pr es entat ives  of  th pro nunciat io ns {B ,   M,  E}  fo the  un it   an 10 th   posit ion s n L   an n L - re sp ect i vely   and   the  unit from   n 1   to   n L - m a be  der ive us in the  com m on   pr onunci a ti on   ru le by  con cat e natin 100 th 1000 th et po sit ion’s  pr onunci at ion   wi th  the  up   t 10 pr onunci at ion.  F or  exam ple,  in  pro du ci ng   t he  pro nunciat ion   of   t he  num eral  11   a ek - ga - ra ”  in  Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708     A Co ntext - base N um er al Re adin Tec hniq ue  for Tex   ( Soumy Priy adarsi ni P anda )   4539   Od ia   la ngua ge   the  un it invo lved  in  the  pro nunciat ion   a re  \ ek”  from   “B  set ”,  \ ga”  fro m   “M   se t”   and  \ r a”  from   “E  se t”   a sh ow in  Fig ur 3.   i .e  B(L) - M(L - 1) - E (L - 1).  H ow e ve the   above  re petit i ve  pro nunciat ion   i s   no sam for  num ber ha ving   or  at   the   unit   place.  T overc om this  we  se pa rate  the  nu m ber of  these   cat egory  f ro m   the  gr oups   a nd   pro duce  thei pro nunciat ion  by  m ai ntaining  sp eci al   c ases   of  pro nunciat i on  as   {9:  na”,   19 “une - is” ,   29 ana - ti ris ”,  et c},  {2 0:  “k o - di e” 30 “ti ris” et c}   H oweve r,   for  s om unit s,  the   pro nunciat ion   ru le do e not  include  t he  m i dd le   sta te f or  exam ple  fo t he   nu m eral  two  at   the  un it   place,  the  m app in m ay   be  \ ba”  f r om   t he  B st at an the  ne xt one  is from   the  sta te   as  \ ra”   to   f orm   the  pro nunc ia ti on  “ba - ra”  for  th nu m eral “1 2”.         Table  10. Pron un ci at io n of B eng al Nu m erals with  Starti ng ( Col um n W ise   and E nd i ng ( R ow  W ise Sim i la rity   Pron u n ciatio n   aek    b aa    te    ch o     pon    ch h o     sh at    ath     una   ra    Aeg - aa - ro     Baa - ro    te  - ro    ch o -   ddo   pon -   e - ro    so -   ha - la   sh at -   a - ra   ath -   a - ra    Un e - ish   ish     aek - u sh     b aa - ish     te - ish     ch o - b ish     po - ch - ish     ch h o - b ish     sh at -   aa - sh     ath - aa - sh     Un o -   tirish   rish     aek - ti  - rish     bo - t -   rish     te - ti - rish     ch o u - ti - rish     poy - ti - rish     ch h o - ti - rish     sh ai -   ti - rish   -     att - i r ish     Un o - ch o lish   lish     aek - ch o   - lish     bi - ya - lish       te - ta -   lish     ch u - ya - lish     poy - ta - lish     ch h e -   ch h o - lish     sh at - ch o - lish   -     att - ch o   lish     uno - pon - ch aash   nno    aekaa   - nno    Bah a -   nno    ti -   p an n o     ch u - ya - nno    pon - ch a - nno    ch h a -   p an n o     sh at -   aa - nno    att - aa - nno    uno -   sh at   sh o tti    aek - sh o tti   ba -   sh o tti    te -   sh o tti    ch o u -   sh o tti    poy -   sh o tti    ch h e -   sh o tti    sh at -   sh o tti    att -   sh o tti    Un o -   sh o tto r   tto   aek - a - tto r   b ah a -   tto   ti - y a   tto   ch u - ya - tto   po - ch a - tto   ch h i - ya - tto   sh at - aa - tto   att - aa - t to   Un o -   ash i   ash   aek - aa   - ash   bi - r - ash   tir -   ash   ch u - ra - ash   po - ch a - ash   ch h i -   ya - ash   sh at - a - ash   ata -   ash   uno - no - bboi   n o b b o   aek - aa - n o b b o   bi - ra -   n o b b o   tir - a -   n o b b o   ch u - ra - n o b b o   po - ch aa - n o b b o   ch h i - y aa - n o b b o   sh at - aa - n o b b o   ataa - n o b b o   n ira -   n o b b o i         Be gin                 Mi ddle                  E nd     Figure   3. P os si ble stat es of a   nu m eral i n Od i a langua ge       The  upto  10 pr on un ci at io m ay  fail   fo certai num er al s,  e.g co ns ider  the  num eral  14   pro noun ced  as    “chau - da”.  T his  do es  not  fo ll ow   the  pro nunc ia ti on   si m il ar it ie s.  An   obvi ou (br ute  forc e)  w orkaro und  is  to  hav e   sm al dicti on ary  of   suc dis - sim il ar  un it s,   an c hec wh et her  giv en   num ber   m at c hes  a ny  of  t hem   at   the  be ginnin of   te xt  a naly sis  phase.   I s o,   break   it   up  int the  co rr e spo nding   pro nounce able  unit se pa ratel and   par se them  to  the n ext p ha se sep aratel y. This works sati sfacto rily , an we' ve  i m ple m e nted  this with  a few  nu m erals ( 14 - ch au - da”, 1 6 -   so - ha - la ”,  35 - pain - tir - is” , 5 3 -   “t e - pan , 56 -   “chh a - pan , et c).     3.3.    Speech  D atabase  M ap pin g And  W av e for m Conc at e nat ion   As  the  m od el   us es  the  W CT   te chn iq ue  to  pro du ce  t he  de sired  ou t pu s peech,  the  re s pecti ve  ba se   so un unit in   the  s peec da ta base  ar nee ded  to  be   obta ined  f or   pe rfo rm ing   wa veform   con cat enati on  to  pro du ce  the  outp ut  sp eec h.   The  s peech   da ta base  m app in phase  ide ntifie the  res pec ti ve  sp eech  da ta base  un it to  pe rform   ru le   base w aveform   con ca te nation.  The  W CT  te ch niqu is  then   us e to  pr oduce  the  desir e Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.   8 , N o.   6 Dece m ber  2 01 8   :   4533   -   4544   4540   ou t pu s peec for  the  Od ia   num eral.  Figu re   sho ws  the  portio c on cat e nation  proces s   for  the  num eral  “1”  pro nounced  as  “ae - ka”  in O dia langua ge fr om   the two s pee ch data base  un it s“ \ ae” and  “ \ ka”.       Portion  from   \ a e”   sound               Portion  from   \ ka ”  s ound       Figure  4.  W a ve  p at te r n of   nu m eral “1”  (one in  Odia ( pro nounced  as  “ae - ka”       3.4 .     ILL US TR AT ION   The  co ntext  id entifi cat ion   pr ocess  f or   a O dia  la ngua ge  num eral  is   pr es ented  in  Fig ur and   the   sp eec unit   identific at ion /m a pp i ng   ste in volve f or   producin the  num eral  pro nunciat ion   f ro m   the  base  35   sp eec un it is   presente i Figure  6.  I producin t he  ou tpu s peec for   the  nu m erals,   the  discu ssed   up  to  100  pro nunci at ion   ru le   is  us e t fin t he  e qu i valent  c har act er   unit in volv ed.  The   sam e   port i on   con cat e natio n m et ho is  u se d t o pro du ce  the  f inal  outp ut speec h.                     Figure  5 .   N ume ral co ntext  i de ntific at ion   f or  input n um eral 943 435245 in  Odia l an gu a ge     Figure  6.   N ume ral sou nd pr oductio n f or  i nput num eral 4  in   Od ia  la ngua ge       4.   RESUL T A NALYS IS   The  pro posed   nu m eral  rea ding  te c hn i qu e   an th W C te c hn i qu e   is  im ple m ented  in   C/ C+ an is   bein te ste for  pro du ci ng   dif fer e nt ty pes  of   nu m erals in d if fer e nt co nte xt in  the conside re India la ngua ges.   To  a naly ze  the   qual it of   the   pro du ce s pee ch,   t he  Me an   Op i nion  Sc ore  (MOS)  te st  [ 30 ]   is  con si der e al ong  with  the  stora ge   an exec utio ti m with  res pect  to  t he  exi sti ng   syl la ble  ba sed  te xt  t s pe ech  te ch nique   [19].   The det ai ls o t he results  obta ined  are  d isc us s ed belo w.     4.1 .   St or age  Req uire ment   Wh il the   syl la ble  ba sed  te c hn i qu e s   re quir es  ar ound  800  sp eec un it of   syl la ble  unit requiri ng   a   m e m or of   ar ound  1 - MB   in  com pr essed   form at the  W CT  te ch niqu that  produce the  sp eec s egm ents  from   the  basic  35  s peech  un it re qu i rin a   m e m or of  a r ound  23 KB  only   with ou f ur th er  c om pr e ssio ns.  N oth e unit are   require to  be   add e to  t he   database  for  pro du ci ng   t he  nu m eral  pronu nciat ion   in  dif fer e nt  Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N: 20 88 - 8708     A Co ntext - base N um er al Re adin Tec hniq ue  for Tex   ( Soumy Priy adarsi ni P anda )   4541   con te xt.  Assu m ing   the  t otal  stora ge  requi red   by  the   syl la ble - base te chn i qu e   to  be   100% the   pr opos e te chn iq ue  ac hi eves  81%  re du ct ion   in   t otal  s tora ge  re quire m ent  and  91%   reducti on  in   num ber   of  un it s   in  the   sp eec h databas e com par ed  to t he  existi ng tec hn i qu e .       4.2.     Execu tion T im e   To  a naly ze  the   perform ance  of   t he  pr opos e te ch nique  in  te rm of   execut ion   ti m co m par e to  t he   syl la ble  based   te chn iq ue,   different  te xt  file are  pr e par e c on ta ini ng   nu m erals  in  diff e re nt  con te xt  of   it us e .   By   var yi ng   the   nu m ber   of   nu m erals  in  each  file   fr om   10   t 100,  the  exe cution  ti m e   (in  m s)  is  m easur ed  by   bo t the  te c hniqu es Fig ure  10,  Fi gure  11   and  Fig ur e   12   s hows   the  a ve rag e xec utio ti m for   bot the   te chn iq ues Th resu lt al th exp e rim ents  perform ed  sh ows  the  e xpone ntial   increase  of   e xec ution   ti m e,  du e   to  the   inc reas in  num ber   of  deco m pr essi on  to   the   . gsm   file in  the   syl la ble  base te c hn i qu e wh il the   pro po se d   a pp r oach s hows rel at ively  v ery lo w growt h rate   in all  the  scena r ios   te ste d .         Figure  10. E xe cution t im e fo r  syl la ble - base d an d pro po se t echn i qu e  w it h resp ect  t in cre asi ng num ber   of  words in  Odia  la nguag e         Figure  11. E xe cution t im e fo r   syl la ble - base d an d pro po se t echn i qu e  w it h resp ect  t in cre asi ng num ber   of  words in  H i nd i  langua ge           Figure   12. E xe cution t im e fo r  syl la ble - base d an d pro po se t echn i qu e  w it h resp ect  t in cre asi ng num ber   of  words in  Ben ga li  lang ua ge   0 20 40 60 80 100 10 20 30 40 50 60 70 80 90 100 Ex ecution  Tim e in m s) Num ber  o num eral (O dia ) Sy l l ab l e - b a s ed pr opos ed 0 20 40 60 80 100 10 20 30 40 50 60 70 80 90 100 Ex ecution  Tim e (in  m s) Num ber  o num eral (H indi) Sy l l ab l e - b a s ed pr opos ed 0 20 40 60 80 100 10 20 30 40 50 60 70 80 90 100 Ex ecution  Tim (in  m s) Num ber  o num eral s(Beng a li) Sy l l ab l e - b a s ed pr opos ed Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.   8 , N o.   6 Dece m ber  2 01 8   :   4533   -   4544   4542   4.1 .   Sub jecti ve   Me as ure  For Speech  Qu al ity   Fo perf or m ing   the  MOS  te sts,  set   of   ra ndom   nu m eral s,  N 1 N 2 …. N 8   are  sel ect ed  r epr ese ntin diff e re nt  cat eg or of  pro nunc ia ti on for  t he  sp eci fied   r ules.   The   ou t pu spe ech  is   ge nerat ed  by  the   propos e te chn iq ue  as  well   as  by  the   syl la ble - base nu m eral  read i ng   te c hniq ue.     gr oup  of   15  nati ve  sp ea ke rs  ar e   sel ect ed  from   each  la ng uag to  pe rfor m   the  li ste ner te st  and   are  as ke to   giv t heir  feedback   on  the   ba sis  of   ease  of  unde rstand a bili ty   on  outp ut  s peech  pro duced   by  t he   two  te ch nique in  a   point  s cal e   (1 - ve ry  lo w,   2 - low,   3 - a ver a ge 4 - high,  5:  very   hig h) All  th te sts  wer pe rfor m ed  with  headpho ne  set Figure. 7,   Fi g.  an Fig.  show the  ave rag M OS   te st  res ults  by  al li s te ners  for  dif fer e nt  nu m erals  resp e ct ively   fo the   t hr ee   consi der e la ngua ges The  re su lt of   al the  exp e rim ents  per f or m ed  sh ow   the  eff ect ive ne ss  of   the  pro po s ed   te chn iq ue  i n producin c om par able  res ults wi th the e xisti ng  te chn iq ue e ve n wit a  v e ry s m al l database.           Figure  7 .   A verage M OS   for Odia la ngua ge           Figure  8 .   A verage M OS   for Hin di lan gu a ge           Figure  9 .   A verage M OS   for  B eng al i l a ngua ge   1 1.5 2 2.5 3 3.5 4 4.5 N1 N2 N3 N4 N5 N6 N7 N8 MO for   Odia Un it  Ty pe  (Nu me ral s) Pr o p o sed Sy llab le- b ased 1 1.5 2 2.5 3 3.5 4 4.5 N1 N2 N3 N4 N5 N6 N7 N8 MO for   Hi nd i Un it  ty pe(Nu me ral s) Pr o p o sed Sy llab le- b ased 1 1.5 2 2.5 3 3.5 4 4.5 N1 N2 N3 N4 N5 N6 N7 N8 MO for   Bengali Un it  Ty pe(Nu me ral s) Pr o p o sed Sy llab le- b ased Evaluation Warning : The document was created with Spire.PDF for Python.