Int ern at i onal  Journ al of  El e ctrical  an d  Co mput er  En gin eeri ng   (IJ E C E)   Vo l.   8 , No .   6 Decem ber   201 8 , p p.   5381 ~ 5388   IS S N:  20 88 - 8708 DOI: 10 .11 591/ ijece . v 8 i 6 . pp 5381 - 53 88           5381       Journ al h om e page http: // ia es core .c om/ journa ls /i ndex. ph p/IJECE   Convolu tional N eural Ne twork  an d Feature  Trans formati on  for   Distant  Sp ee ch Re cognit ion       Hil man  F . P ar dede, Asri   R.  Yu li an i,  R ik a Sustik a   Resea rch   Cen te r   for  Inform atics,   Indone sian  Inst itute  of   Sci enc es ,   Indone sia       Art ic le  In f o     ABSTR A CT   Art ic le  history:   Re cei ved   Ja n   5 , 201 8   Re vised  Ju l   2 7 ,  201 8   Accepte Aug   7 , 2 01 8       In  m an y   appl i cations,   spe ec r e cogni ti on   m ust  oper ate  in   conditions  wher e   the re  are   som dista nc es  bet we en  spea ker and   the   m ic rophon es.   Thi is   ca l le d ista nt   spee ch   re cogni t ion   (DS R).   In  th is  c ondit ion,  spee ch  rec ogni ti on   m ust  dea with   rev erb er ation.   No wada y s,  d eep  le arn ing  tech nologi es  ar e   bec om ing  the  t he  m ai t ec hnol ogie for  spee c rec ogni ti on .   Dee Neura l   Network  (DN N in  h y brid  wit Hidden  Markov  Model  (HMM)  is  the  comm only   used  arc hi te c ture.  How eve r,   thi s y st e m   is   stil not  robust  aga inst  rev erb e r ation.   Previous  studie use  Convolut ion al   Neura Netw orks  (CNN ),   which  is  var i a ti on  of  neur a net work,  to  impr ove  the   robustne ss   of  spee ch  rec ogni ti on  agai nst no ise.   CNN   has  the   prope rtie s of  pooli ng  whi ch  is use to  find  loc a cor r elati on  be twee n ei gh boring  dime nsions  in  the   feature s.  W it h   thi prope rt y ,   CNN   coul be  used  as  fea tur learni ng  emp hasiz ing  th e   informati on  on   nei ghboring   fra m es.   In  thi stu d y   w use  CNN   to  d ea l   with   rev erb er ation.   W al so  propos to  use  fea tur tra nsform at io te chni qu es:   l inear  discri m i nat   anal y s is  (LDA)  and  ma ximum   li kel ih ood  li near   tra nsform at ion  (MLLT ),  on  m el   fre qu ency   ceps tra co eff i ci e nt  (MF CC)   bef ore   fe edi ng  t hem  to  CNN .   W arg ue  that  t ran sform ing  feature coul d   produc m ore   discri m ina tive  f ea tur es  for  CN N,  and   hence   i m prove   the  robustness  of  spee ch   rec ogn it ion   aga inst   rev erb e rat ion .   Our  ev aluati ons  o n   Mee ti ng  R ec ord er  Digit (MRD subs et   of  Aurora - databa se  c onfirm  tha t   the   use  of  LDA  and  MLLT   tr ansform at ions  improve  the   robustne ss   of  spee ch  rec ogni ti on.   It  i bet te r   b y   20%   relati v err or   r educ t ion  on  co m par ed  to  standa rd  DN base spee ch   rec ogni ti on  u sing  the   sam e   num ber   of    hidde lay ers .   Ke yw or d:   CNN   Dista nt S peec h R eco gn it io n   Feat ur e  t ransf orm ation   LDA   MLL T   Re verberati on   Copyright   ©   201 8   Instit ut o Ad vanc ed   Engi n ee r ing  and  S cienc e   Al l   rights re serv ed .   Corres pond in Aut h or :   Hil m an  F. Par de de   Re search  Cent er fo I nfo rm atics,   Jl. Ci sit N o. 21/1 54D  Ba ndung,  Ind on esi a .   Em a il :   hil m 00 1@ li pi. go.id       1.   INTROD U CTION   Deep   Lea rn i ng  te chnolo gie hav rece nt ly   achieved  huge  s uccess  i aco us ti m od el li ng  f or  autom at ic   sp e ech  recog niti on   ( AS R)   ta sk [1 ] - [ 4].   They  rep la ce  co nv e ntio nal  Hi dd e Ma rko v   Mod el s - Ga us si an  Mi xt ur M od el s   ( HMM - GMM)  [5 ] [ 6] Cure ntly D eep  Neural  Ne twork   ( DNN)  is  the  sta te - of - the - art   arch it e ct ur f or   s peech   rec ogniti on.  D N is  us ed  to  pro vid poste ri or   pro bab il it to  HMM   base on   se of   le arn e f eat ur es.  hy br i of   HMM - D NN   has  show to  ha ve  su pe rio pe rfo rm ance   com par ed  t o H MM - GMM m od el s fo r ASR.   Currentl y,  m or autom at ic  sp eech  rec ogniti o (ASR)  ap pl ic at ion f ound  in  our  daily   act ivit ie s.  They   hav bee i m ple m ented  as  virtu al   assist ant  in  sm art - ph one s,  hom auto m at ion m eet ing   diarisat ion,  an s on.  F or  s uc app li cat io ns ,   AS m us op erate  in   co ndit ion s   w he re  th ere  a re  s om distances   bet w e en  t he  sp ea ker an the  m ic ro phone s.  This  is  cal l ed  distant  sp e ech  recog niti on  (DSR).  I s uch   c onditi on s AS R   syst e m are  exp ect ed  to  be  r obus a gainst  noise   and   rev e rb e rati on.  H ow e ve r,   the  perform ance  of  D N N - HM M   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  8 , N o.   6 Dece m ber   201 8   :   5381   -   5388   5382   syst e m are  still   un sat isfact ory fo thes c onditi on [ 7].  N oise  an rev e r ber at io disto r the  sp eech  sign al s   causin la r ge  degra dation  on   the  perform ance  of  A SR  sys tem s.  This  m a ho l back  th us e rs  wh e us i ng   AS R a pp li cat io ns   Ma ny  stu dies  hav e   pro pose te chn i qu es   to  i m pr ove  the  ac cur aci es  of  A S R   in  noisy   an rev e r ber a nt  conditi ons.  O ne   ap proac is  t e nh a nce  t he  no isy   featu res  by  ap plyi ng  no ise   rem ov al   te chn i qu e [ 8]  O thers   desig ne dis crim inati ve,   ha nd c raf te fea tures  t hat  are  m or robu st  a gainst  no ise   a nd  re verberati on  [ 9].  Ma ny  w orks  a lso  pr opos a dap ti ng  t he  ac ou sti m od el s   into  noisy   co nd it io [10].  I DNN  fr am eworks   howe ver,  m any  m et ho ds  pr opose f or  HM M - GMM  syst e m m ay   no w ork  as   well   [7] For  deep  le arn i ng  fr am ewo r ks va rio us   arc hitec tures  are  i nv e sti gated  to  fi nd   t he  bette syst e m s   s uch   as  rec urren neural  ne twor (RN N)   [ 11]   and   c onvoluti onal   neural  net work   (CN N)   [ 12 ] I these  a ppr oach es the   hid de la ye rs   of   the  syst e m are  in creased  to  pro du ce  m or disc rim inati ve  featur es  befor fi ne - tu ning  in  the   la st  la ye rs.   Howev e r,   this m ay  sig nificantl y i ncr eas e the c om pu ta ti on al  ti m e fo t rainin g.   Currentl y,  CN are  gaini ng  interest am on resea rch e rs.   Or i gin al ly it   i us ed  in  c ompu te visio n   [13].  S om stud ie [ 14 ] - [ 17 ]   ind ic at it   to  be   bette tha DNN  for  la r ge   scal vocab ul ary  ta sk s.   W a rgues ,   the  pro pe rtie of   C N s uch  as  pooli ng   c ou ld  be ne fit  in  re verbera nt  c ondi ti on s.  In  these   stud ie s   m os tly  deal  with  no ise  onl y. Their  im ple m entat ion on  deali ng r e ve rberati on s  h a ve n ot yet  explo red.   On a dv a ntage   of   dee le arn i ng   f ram ewo r ks  is  the  abil ity  of   the  netw ork  to  le arn   the  discrim inati ve   featur e giv e input  data  [18].  Stud ie sho w   that  transf orm ing   featu res  be fore  feed i ng   th e m   to  the  netw ork s   m ay   ben efit   t he  pe rfor m ance  of   dee le arn i ng   syst em s.   Ther are  num ero us   ap pr oach e that  can  be   i m ple m ented  i featu re  dom ai to  i m pr ov e   the  per f or m ance  of   AS sys tem in  deep   arch it ect ures  for  la rge   vo ca bula ry  sy stem s.  So m of  them   are  l inear  discrim i nan t   analy sis  (LDA)  [ 19] heter os ceda sti li near  discrim inant  analy sis  (H L D A)   [20],  Ma xi m u m   Likel ihood   Li nea Tra ns f or m   (MLL T)  [ 21] featu r base d - m ini m u m  p hone  erro ( fMPE )  [22 ] , o r usin g t he  com bin e t ran s f or m at ion s.   In   this  stu dy,  we  pro pose  CNN  with  featu re  trans form at i on for  im pr oving   the  r obus t ness  of  AS R   against  re verb erati on.  we  ap ply  LDA   an MLL on   feat ur es  befor fe edin them   to  CNN.   We  ar gue  that,  app ly in them   m ay   al so   i m pr ov t he  r obus t ness  of   s peech   recog niti on   in  rev e rb e ra nt  co nd it io ns   by  sti ll   us in relat ively   s m aller  nu m ber   of   hid de la ye r.  W e valuate  the  us of  feat ur tra ns f orm a ti on (i.e L D an d   MLL T)  on  M el - fr e quency  c epstral  c oeffici ent  (M FCC We  ca pture  t he   co ntext  i nfo rm ation   of  s pe ech  by  sp li ci ng   t he  fe at ur es  with  se ver al   prece ding  an s ucceed ing   f ram es  and   the ap plied   LDA   t re duce  the   dim ension al it y.   A fter  that,   we   ap ply  MLL on   t he  reduce featu res.   In  th is  we  fee t he  trans form ed  featur es   as aco us ti c in put f or CN N.   The  rest  of   th pap e is  org anized  as  fo ll ow s Sect io 2.   prov i de  the or et ic al   bac kgr ound  f or   our   syst e m In   this  sect ion we  br ie fly   desc rib the  featu res   we  us e d,   th e   f eat ur tra nsf or m at ion an CNN.   In   Sect io 3.,   we  e xpla in  our  pro posed   s yst e m In   Sect ion   4.,  we  we   ex plain  our  e xp e rim ental   se tup   t evaluate  our  m et hod  a nd d isc us s t he results.   We c on cl ude t he pape i Sec ti on   5.       2.   THE ORETI C AL BA CKGR OUND   2.1.    Speec F eatures   Ma ny  featu res   hav bee pro po s ed  for  A SR.  MFC is  arguab ly   the  m os popula one.  MFC is  handc raf te fe at ur that  is  e xtracted  us i ng   two - sta ges  Four ie t ran s f orm The  aim   is  app li ed   to  de correla te   sp eec com ponen ts  in  ti m e   and   fr e qu e ncy  dom ai ns .   By   do ing   s o,   sp ee ch  un it s,  s uch   as  phonem es,  coul be  m od el ed  us i ng  m ixtur es  of  Ga us sia ns  usi ng  only   their  diag onal   co va riance s.  I MFC e xt racti on   proces s,  the   sp eec sig nals   are  c hunked   into  se quen ces  of   fr am es  with   fixe durati on,  usual ly   around  25 - 50  m s   each .   Sp eec is  assu m ed  to  be  sta ti on a ry  for  each  fr am es  and   t hen   th Four ie trans form   is  app li ed  t obta in  it sp ect ral  com po ne nts.  Us ually the  powe s pectra  are  us e by  ta ki ng   th sq ua re  of   it m agn it ud e T hen,  th e   sp ect ra  a re  m app e i nto   a   m e l - scal ed  filt er - banks  t em phasi the  fr e qu e ncy  in  l ow e re gion  m or e.  Af t er  that,   the  lo op e rati on  is  a pp li ed   to  the   outp ut  of  m el - filt erb an befor e   ap plyi ng   Fou rier  T r ansfo rm in  this  cas e   on ly   us in t he real  p a rt of  Four ie r  tra ns f or m  to deco rr el at each c om po ne nt in fre quency  dom ai n.   Wh il MFC sh ows  good  re su lt w hen   t he  conditi ons  bet ween   tr ai ning  and   te sti ng  are   the  sam e,  i su f fer s   w he t her e   is  hi gh  va riabil it on   t he   data.  Sp e ech   is  hi gh ly   var ie due  to   intra - s peak e var ia bili ti es,   inter - s pea ker   va riabil it ie s,  env ir on m ent  var ia bili ti es,  i.e.  wh en  s peec is  no isy   or  co ntam inate d,   et c.  Ma ny   stud ie pr opose   diff e ren feat ur es  to  im pr ov the  robu st nes of   A SR.  PLP   is  on of   the  exam ples.  The   m ai n   diff e re nce  bet ween   PLP  a nd  MFC is  that  PLP  ap plies  cu b r oo f unct io instea of  lo g.   T he  ob j ect iv is  to  reduce  the  sen sit ivit of   the  featur es  in  lo energy  reg i on   wh ic is  m os sensiti ve  to  no ise Other   di ff e ren ce   is t he use  of b a rk scal e instea d of m el  in  MFC C.   MFC sh ows  pr et ty   good  pe rfor m ance  in  HMM - GM s yst e m s.  Since  i is  qu it un co r relat ed,   it   is   adequate   to   m od el   eac sta te   of  HMM  us in m ixtur es  of   Gau s sia only   us in th dia gonal  c ovaria nc es  of  th e   GMM.  H ow e ve r,   tw o - sta ges  Four ie tra nsfo rm   re m ov the  cor relat io be tween  s peech   com po ne nts  in   tim e - Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N:  20 88 - 8708       Con v olu ti on al  Ne ur al Net wo r k   and Fe atu re  Transfor m atio fo Dist an t…   ( Hilman F . P arde de )   5383   f re qu e ncy  do m ai ns T hese  c orrelat ions  co ul sti ll   be  nee de in  recog niti on   proces s.  T hi m ay   be  on of   t he  reason  th at   ASR   are  not  r obust In  D NN - H MM   syst e m s,  so m stud ie s how  it   is  m or ben e fit  w hen  m or e   “raw   feat ur es   are  us e d.  O ne   of  them   is  FBANK  [23].   FB ANK  has   the  s a m extracti on  proces with  MFC C   excep t i t i without t he  sec ond  sta ge  F ourier  tran s f or m . S o, so m e correlat ion s  in  freq ue nc y are sti ll  ex is t.     2.2.    Fe at ure   Tr an sf orm ati on   Transf or m ing   featur e to  ot he dom ai sp aces  of te f ound  ef fecti ve  i m any  cl assifi cat ion   ta sk i m achine  le ar nin g.  T he  us of  high  dim ension   f eat ur e are   of te ine ff ect i ve  because   it   m ay   le ad  to  ov erf it ti ng .   Re du ci ng   t he  dim ension of  the  featu res  is  of te ap plied.  LDA  an PC A   are  exam ples  of   featu re  re du ct ion  te chn iq ues . L D [ 24]  is a pp li ed  in  s up e rv ise m ann er  whil e PCA  is  an u nsupe r vised  techn i qu e .   LDA  is  usua ll app li ed  i prep ro ce ssin sta ge  to   re du ce   the   dim ensio ns   of  f e at ur from   the  n - dim ension al   feat ur e are  re du ce in to  m - di m ension al   sp ace  (m < n).Th obj ect i ve  is   to  pro j e ct   the  featur e s pace   into  lo we dim ension al   s pa ce  an m aking  the  featu re m or discri m inati ve.   The   lowe r   dim ension al   fe at ur s pace  is  chosen  s uc th at   it   e m ph asi ze the  distances   betwee cl asses  m or than  withi the cla ss.  Ma t hem at ic ally i t c ou l d   be writt en :     T e T i J d e t d e t                 (1)     wh e re   Σ   are  t he   cov a riance   between  cl ass,   Σ   is   the   co va rianc withi cl ass θ  is  t he  featu re a nd  J ( θ is  t he   cost  f unct ion  that  to  be  m axim iz ed.   The   so l ution  f or  J ( θ)   is  by  ta ki ng  the   first  ei ge nv ect or of  m at ri Σ 1   Σ   after   s or ti ng   t he  ei genval ues   f ro m   the  la rgest   ones.   F or  m or inf or m ation  on   ap plyi ng  LD A   on   sp e ech   featur e s c ou l d refe to  [19 ]   Me anwhil e,  MLL [ 25 ]   is  a pp li ed  i HM M - GMM  syst e m to  loo se the  assum ptio in  HMM - GMM  syst e m s In   HMM - G MM   syst e m s,  it   is  assu m ed  that  the  featu re are  ind e pe ndent  with  eac oth e r .   Ther e f or e,   Ga us sia ass um pt ion s   are  with  on ly   diag on al   co - var ia nces  a re  us ed Wh il e   this  c ou l f as te th trai ning  tim e,  the  assum ption   m ay  no nec essaril ho ld s.   This  i because   sp eec com pone nt  m a st il be   relat ed  to  each   oth er  in  featu r sp ace.  MLL [25],  w hich  i al so   know as  se m i - ti ed  co - var ia nce  (S TC [26],   li near ly   tran s f or m the  sam ple  data  to  ne tra ns f orm ed  sp ace  t hat  are   Ga us sia distr ibu te to  l oo se this   assum ption .   MLL is  a ppli ed  to   im plicitl capt ur e   the  c orrelat ion  bet ween  the   feat ure  el em ents  by  us i ng   const raine c o - var ia nce m od el .   MLL w orks  as  fo ll ow.  ML LT  us es  ei ge deco m po sit io to  deco m po s fu ll   co - vari ance  m at rix  ov e the  set   of  Gaussi an  c om po nen ts,  a nd   each  c om po ne nts  m ai ntain  it “diagonal”  char act e risti cs.   f ull  cov a riance  m atr ix c ould  be de com po sed  u si ng the  foll owin g f or m ula:     T r m d i a g r m ) ( ) ( ) ( ) ( ˆ ˆ H Σ H Σ                 (2)     wh e re  m   is  the  ind e of   Ga us sia c om ponen a nd  is  the  inde of   c la ss.  Each  c om po nen m   has  three  par am et ers:  weigh t,  m ean,  an dia gonal  el e m ent  of   sem i - tied  co - var ia nce ma trix.  So,  eac co - var ia nce ma trix  ( )   co ul be   de c om po se  i nto  t wo :   dia gonal   el e m ent  of  c o - va riance   m at rix  c om po ne nt  m   ( ) ,   an sh are fu ll   co - var ia nce  m at ri of  Gau s sia com po ne nts  in   cl ass  r,   ( )   (n am ed  as  sem i - ti e tra ns f or m ).   We  denote  ( )   be  the  inv e rse  of  ( ) In   AS R,  the  c ova riance  m at rices   are  trai ne un d er  Ma xim u m   Likel ihoo sense  o the   tr ai nin data  a nd  will   be  op ti m iz ed  with  res pect  to  ̂ ( )   the  m ean  of   t he  Ga us sia ns  ( )   and   diag on al  c ovar ia nce m at rices  ̂   ( )   . So,  the c os f un ct io n J c ou l d be  w ritt en:     , ) ( ) ( ) ( 2 ) ( ) ( ˆ ˆ d i a g ˆ l o g ˆ , r M m T r m r r m J A W A A           (3)     wh e re:     m T m m m m ) ( ) ( ) ( ˆ ˆ o o W             (4)     , ) ( r M m m                   (5)   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  8 , N o.   6 Dece m ber   201 8   :   5381   -   5388   5384   and     T m m q p O ,                 (6)     The  no ta ti on  ( )   is  the  gau s sia com po ne nt  at   tim τ O T   is  the  trai ning  data  an o ( τ i the  ob se r ved  featur e T he t he  m axi m u m   lik el ihoo est im at ion   of the m ean is:     m m m o ) ( ˆ                 (7)     and the c ovaria nce m at rix  est im at e is:     T r n r m d i a g ) ( ) ( ) ( ) ( d i a g ˆ A W A Σ               (8)     Ca lc ulati ng   ( )   is  nontri vial.  To   est i m at i t,  it   i init ia li zed  us i ng  an   ide ntit m at rix  an the est im at ̂   ( )   us in Eq uation   ( 8)  a nd the ( )   is u pdat ed usin E g. ( 2)     2.3   C onv oluti on al  Neur al  Net w or k   ty pical   convo l ution al   network   st ru ct ur e   is  illustrated  in  Fig ur 1.   T his  is  diff e ren t   fr om   DN N ,   wh e re  al neur on i the  pr e vi ou la ye rs  a re  connecte t al the  neurons  of  the  su cc essiv la ye rs,   wh ic m ay  no be   ef fecti ve   w hen  the   fea tures  ha ve  la rge  dim ension s Conv olu ti onal   Neural  Netw ork  (CN N)  is  s pecial   kind  of   dee ne ur al   netw ork.  CNN  i ntr oduc es  two  ty pes  of  sp eci al   net wor la ye rs,  cal le co nvolu ti onal   la ye r   and   pooli ng   la ye r.   Eac ne uron   of  the  c onvoluti onal   la ye receives  i nput from   set   of  filt ers  of  the  l ow e r   la ye r.   The   filt ers  ar ob t ai ne by  m ulti plyi ng   sm al local   pa rt  of  the   in pu with  t he  w ei gh m at rix,   wh e re  these  filt ers  a re   then  re plica te th rou ghout  the  whole  in pu t   sp ace.   Lo cal iz ed  filt ers  t hat  s har t he  sam weig ht  app ea as  featu re  m aps.   Af te r   com pleti ng   co nvolu ti on  proc ess poolin la ye ta kes  in puts  f ro m   local   par t   of the c onvolut ion al  lay er a nd  g e ner at es a  lo wer res olu ti on  ver si on of  filt er acti vatio n.   In   the  im ple m e ntati on s f or  spe ech  rec ogniti on,  after  fe la ye rs  of   C NN   st ru ct ur e d,   f ully   con ne ct ed   la ye of   ge ner a ti ve  dee neura netw ork  m odel   (D B N - DNN is  pe rfo rm ed  to  com bin e xtracted  l ocal  pat te rn s   from   a ll   po sit i on i the  lowe la ye fo final  recog niti on   [ 27 ] I this   pap e r,   we  use   two  la ye rs  of  CN N   structu re  a nd  t hen  ap ply  la ye rs  of  DBN   to  pro du ce   tot al   of  la ye rs  of  hi dden   la ye rs   for  pret rainin g.  T hen  DNN  is a ppli ed on t he  t op of  then f or   super vi sed  le ar ning.           Figure  1. A  ty pi cal  CNN  a rch i te ct ur e   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N:  20 88 - 8708       Con v olu ti on al  Ne ur al Net wo r k   and Fe atu re  Transfor m atio fo Dist an t…   ( Hilman F . P arde de )   5385   3.   THE   PR OPO SED   S YS TE M   Figure  is  th currently   the   m os com m o nly  us e A SR  syst e m s.  DBN - DNN,   w hic is  ba sed  on   Kar el im ple m entat ion   of  DNN  on   KAL DI   [28]  is  us e as  ba sel ine.  DBN  c onfig urat ion   in  this  e xperim ent   us es  6 - dep t hi dd e la ye rs  w it dim ension   of   2048  hi dd e ne uro ns i.e.   Gau ssia n - Be r noulli   RB a firs t   la ye connecti ng   t the  Gau s sia aco us t ic   inputs  an Be r noulli - Be r noulli   RB la ye rs  a fterw a r d.   T he  s ta ck  of   pre - trai ni ng   la ye rs  is  fo ll ow e by  DNN  la ye rs  with  hi dden  la ye rs  (1024  ne urons)  an so ftm ax  ou tput   la ye r.   We  denote t his as BASEL INE2  i this  pa pe r.   We also  trai a  co nventio nal H MM - GMM . We de no te  this  as BAS ELI N E1.  F or  this,  w m od el  each   dig it   with  16  sta te HMM,  lef t - to - rig ht  w he re  each  sta te   was  m od el le usi ng   Mi xtures  of  Gaussi an  wit the   nu m ber   of G a ussi an  is t hr ee.   Fo r  pause  m od el s: si l, we use  HMM wit h 3  s ta te s w it h 6 Ga us sia n co m pone nts.   Figure   is  the  pro po se syst e m   in  this  stud y W us MFC as  the  basic  for  sta ti featu res.   We  us e   13  dim ension s   of   sta ti featu r es  an t hen  the   featu res  a re  s pl ic ed  by  us in pr ece ding  a nd  s uccee ding  f r a m es   to  capt ur e   the   co ntext  of  the  s peec h   pro du ci ng  11 di m ension s T he n,   we  a pply   LDA  to   re duc the  dim ension int 40  dim ension f or   al feat ures.  T he we  a pp ly   MLL on  the  outp ut  of   LDA   be fore  fe edin them   into  CNN.   F or  syst em us i ng   only   L DA,  we   de note   as  PRO POS ED 1,   a nd  f or   s yst e m   with  bo t L DA  and MLLT i s  deno te as  PRO PO SE D 2.           Figure  2. The   Ba sel ine Syst em : M FCC  w it delta  tra ns f orm at ion  b e fore  feed i ng to DB N - DNN           Figure  3. The   Pr op os e Syst e m : The F eat ure  Tr a ns f orm ation   (LDA a nd M LLT)  is  appli ed on M FCC  be fore  feed i ng it  into 2 - la ye rs  CN N.   The o utput o f C NN  a re  fee i n to  la ye rs  DB a nd 1 la ye D NN       Fo C NN   pre - t rainin g,   w use   two  la ye rs  of   CNN  an the la ye rs  of   DBN.   F or  CN la ye rs,   we   us 128  ne uro ns  f or   first  hidd en  la ye a nd  256  ne uro ns   f or   seco nd  hi dd e n.  Pool  siz of  th ree  a nd  m ax  poolin are  us e in  t his  stud y.  For  D BN,  we  us sta nd a r 10 24   n e uro ns   f or   hidd en  la ye rs.   T his   set ti ng are  t he   sam e   as  in  [ 15]   as  it   is  fou nd  good  set ti ng   f or   sp eec rec ogni ti on T he  outp ut  of  DNN  is  us e to  e stim a te   th e   po ste rio r prob a bili ty  o f HMM  stat es in  hybri d of dee le ar ni ng  a nd  HMM  syst e m s.        4.   E X PERI MEN TS   4 . 1.     The  Setup   The  e xperim ents  are  e valu at ed  on  s peec c orp us   of  is olate dig it   recog niti on   ta s k.  W e   us TI Digits   corp us   to  trai acou sti m od el on   cl ean  c onditi ons,  w hi ch  co ns ist of   8623  uttera nce prono un ce by  111   m al and   114  fem al adu lt   sp eake rs.  F or  te st  data,  w use   the  re verbe ran versi on  of  TI Digits,  t hat  is  th e   Me et ing   Re co r der   Digits  (MRD)  s ubset   of  Aurora - c orp us   [ 29] T he  c orp us   com pr is es  of  real  recordi ng   i hands - f ree  m od in  the  m eeting   r oom The  sp eech  data  is  colle ct ed  fro m   24   sp ea ker s   at   the  In te r na ti on al   Com pu te Scie nce  I ns ti tute  in   Ba rk el ey res ulti ng   of   2400  utterances  f or   each  m ic ro phone.  T he  rec ord ing   i s   perform ed  us i ng  four  m ic ro phon e (la beled   a 6,  7,   E,  a nd  F wh ic a re  placed  at   t he  m idd le   of  t he  ta ble.  T he   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  8 , N o.   6 Dece m ber   201 8   :   5381   -   5388   5386   recordi ng  th us  co ntain  s om e   re ve r ber a nt  a coust ic   co nd it ion s   f r om   the  eff ect   of  ha nd s - f ree  recor ding  in   a   m eet ing  roo m . Th perf or m ance is m easur ed usin g wor e rror rate  ( W ER ).     4 . 2.     Res ults   and  Discussio n   Table  s hows  th e valu at ion   of  the   pro posed   m et hods   (P R O PO SE an PROP OS E 2).   As  c om par iso n,   t he  pe rfor m ance  of  BA SE LINE1   an BASEL INE2   ar sho wn  as  w el l.  The   ta ble  cl early   ind ic at es a co nsi ste nt r ed uctio of   wor error rate s in  rev er be ran t co ndit ions. PROP OS E D achieve s 3 7. 67  %   and  27. 78  r el at ive  i m pr ov e m ents  over  B AS EL INE1   an BA SEL IN E re sp ect ively   wh il PR OPO SED2   achieves  38. 69%  a nd  28, 94   relat ive  i m pr ov em ents  ov e B AS EL I NE an B A SELI NE re spe ct ively .   Applyi ng MLL T after  LDA  (PR OP O SE D2)  s li gh tl y bett er t han ap plyi ng L DA alo ne.   This  m igh be   analy sed  as  t he  f ollo wings.   W he rev e r be rati on   e xists,   the  res ulti ng  rev e rb e ra nt  sp eec are  s um   of   the  signa with  the  del ay ed  versi on  of  the  sam sig nals.  T her e for rev e rb e ran s peech  con ta in   the  i nfor m at ion   f ro m   pr e vious   f ram es.  T his  will   increase   co rr el a ti on betwee neig hbori ng  f r a m es,  h ence  m ay   inc rease  the  local   cor relat io ns   ne arb f ram es.  In   CN arc hitec ture,   the  pro per ti es  of  loca li ty conv olu ti on  a nd  poolin m ay   be  ben e fit  in  s uch  co ndit ion s .   Since  t he  em ph asi is  on   l oca neuron  first,  i can  le arn   on  the  lo cal   info rm at ion   an pro du ce   good   feat ur es   based   on  cl ean  par of  sp ee ch  from   early  fr am es  (since  they   are r el at ively   cl ea com par ed  t la te   par of   s pe ech). Wh en  s pe ech  is  corr up t ed  by  re ve ber a ti on I t   m ay  cause  so m e fr e quency  sh i ft (dela y i ti m e - f reque ncy do m ai ns ).     These  delay s   a re  diff ic ult  to  handle  within   oth e m od el s uch  as  GMMs   an DNNs w her e   m any   Gau s sia ns   a nd  hidden  un it are  nee ded   t be  opti m iz ed  fo al possible   patte rn   s hifts   [27].  W it poolin pro per ti es  in  CNN,   t he  sam featur value   that  cal culat e from   diff ere nt   locat ion   is  colle ct ed  tog et her   a nd   ind ic at ed  by  a   sing le   value wh ic m a be  fr om   the  cl ea ner   pa rt  of   s pe ech.  T her e for e,  the  diff e re nc es  in   featur e e xtrac te by   poli ng  ply  m a m ini m iz ed  the  ef fe ct   of  delay   wh i ch  a re  ca us e by  re verbe rati on.  LD A   fin ds   the   featu r es  with  the  la rg va riances  a nd   m os separ a te m eans  with in  the  cl ass.  So,  wh e it   is  us ed  f or  featur e s,  it   is  ver li kely   to  choose  m os disti ng uis sp ec tra  (the  dom in ant  sp ect ra w hich  m ay  con ta in  the   phonem es  inform ation When   CNN   is  a pp li ed,   due   to   the  m ax - po oling,  t he  in f or m at ion   is  m ai ntained  up  t the to la ye rs , pr oduci ng a m or e  d isc rim inati ve  feat ur es  and  hen ce  im pr ovin the  p e rfo r m ance.       Table  1.   WER  (%) o the  P ropo s ed  Met hod i Com par iso n wit t he  Ba sel ines   Mod el   Co n d itio n s   Av erage   Clean   MRD 6   MRD 7   MRD  E   MRD F   BASEL INE 1   0 .64   4 6 .66   5 4 .56   5 0 .20   4 4 .59   4 9 .00   BASEL II N E2   0 .80   3 9 .93   4 7 .99   4 2 .69   3 8 .51   4 2 .28   PROPOSE1   0 .90   2 8 .10   3 3 .90   3 3 .03   2 7 .14   3 0 .54   PROPOSE2   0 .82   2 7 .73   3 3 .20   3 2 .62   2 6 .61   3 0 .04       5.   CONCL US I O N   In   this  st ud y,  we  eval uate  th us of  LD and   MLL on  CNN - base s pe ech  rec ogniti on   t i m pr ove  the  r obust ness   of  s peec re cogniti on  a gainst  r eve rb e rati on.  Our  e xper i m ents  confir m   that  ou r   pr opose m et ho is  m or r obus t han  sta nd a r D N N - HMM  an HMM - GMM  syst e m s.  The  pro per ti es  of  weig ht   sh ari ng,  poolin g,   a nd  loc al it of  CN N,  co ul im pr ove  the   recog niti on   ac cur acy   on  al trans f or m ed  fea ture s   com par ed  t th e stan dard  fu ll y - co nn ect e d D NN.   We  nee to   s ta te   that  the  e valuated   ta sks   are  dig it   rec ogniti on  ta sks.   The refore t he   long - te r m   dep e n den cy   th at   exists  in  sp e ech  m ay   no as  sign ific a nt  as  in  co ntinuo us   s peech.  T her e fore  it   is  interest ing   t see how  eac a rch it ect ure fare  f or co ntin uous t asks.  Si nce r e verberati on ti m e is al so  h ea vily  inf lue nced   by  the   siz of   the  roo m it   is  a lso  interest ing   to  se how  dee a r chite ct ur es  perform   in  diff ere nt  set ti ng of   r oo m s.   This is  our f uture  plan.       REFERE NCE S   [1]   M.  L.  Seltzer ,   D.  Yu,  and   Y.   W ang,   An  in vesti gation  of  dee n eur al  netw orks  for  noise  robust  spee ch   rec ogni ti on, ”  in  2013  IEE Inte r nati onal  Confe r enc on  Ac ousti cs,   Spee ch  and  Signal   Proce ss ing   2013,   pp.   7398 7402.   [2]   T.   Yos hioka   an M.  J.  Gal es,   Envi ronm ent a lly  robust  asr  front - end  for  d ee n eur al  net work  a cousti m odel s ,   Computer  Speec &   Language ,   vol.   31 ,   no .   1 ,   pp .   65 86,   2015 .   [3]   R.   Err attahi   and   A.  El   Hanna ni,  Rec ent   adva n c es  in  lvc sr:  b enc hm ark   compari son  of  per form anc es,   Int erna - ti onal Journal  o f   Elec tri cal and Com pute r E ngin ee ring ( IJE C E) ,   vol.   7 ,   no .   6 ,   pp .   3358 3368,   201 7.   [4]   M.  F.  Alghif ari,   T.  S.  Gunawa n ,   and   M.  K art i wi,   Speec h   emotion  r ec ogni ti o using  de ep  f e edf orward  n eur a net work,”  Indon esian  Journal   of   El e ct rica Eng in ee ring a nd   Computer  Sc ie nc e ,   v ol.   10 ,   no .   2 ,   pp .   554 561,   2018 .   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  C om En g     IS S N:  20 88 - 8708       Con v olu ti on al  Ne ur al Net wo r k   and Fe atu re  Transfor m atio fo Dist an t…   ( Hilman F . P arde de )   5387   [5]   K.  F.  Akingbad e,   O.  M.  Um an na,   and  I.   A.  Alimi,  Voice - b ase door  acce s c ontrol   s y st e m   using  the   m el   fre quency   ce pstr um   coe ffic i ent and  gaussian  m ixt ure   m odel , ”  In te rnational   Journal  of  Elec tri cal  and  Computer  Engi ne ering ,   vol .   4 ,   no .   5 ,   p .   643 ,   2014.   [6]   S.  N.  Enda h ,   S.  Adh y ,   and  S.  Sutikno,   Com par i son  of  fea ture  e xtra c ti on  m el   fr eque nc y   ce pstr al  coe ffi cients  and   li ne ar  pre dictive  codi ng  in  aut o m at ic   spee ch  re cogni ti on  for  in donesia n, ”  TEL KOMNIKA  (Tele communic at ion   Computing  E le c t ronics  and  Cont rol) ,   vol.   15 ,   no .   1,   pp .   292 298 ,   2017.   [7]   M.  L.  Seltzer ,   D.  Yu,  and   Y.   W ang,   An  in ves ti gation  of  dee n eur al  netw orks  for  noise  robust  spee ch   rec ogni ti on, ”  in  2013  IEE In te r nati onal  Conf ere nce   on  Ac oust i cs,   Speech  and  Signal   Proc essing ,   Ma y   2013,   pp .   7398 7402.   [8]   P.  Loc kwood  an J.  Boud y ,   Ex per iments  with  a   nonli ne ar  spec tr al   subtra ct or  (n s s),  hidde m ark o m odel and  th e   proje c ti on,   for   ro bust  spee ch   re co gnit ion in car s, ”  Spee ch   Comm unic ati on ,   vo l. 11,  no.   2 ,   pp .   215     228,   1992 .   [9]   C.   Kim   and  R.   M.  Stern,   Pow er - norm al iz ed ce p stral   co eff icient s   (pnc c)  for  robus spee ch  r ec ogni t ion,   I EE E /A CM   Tr ans.  Audi o,   Sp ee ch   and  Lang.   Proc . ,   vol .   24 ,   n o.   7 ,   pp .   1315 1 329,   Jul.   2016.     [10]   M.  J.  F.  Gale and  S.  J.  You ng,   Robust  cont inuous  spee ch   rec ognition  using  par al l el   m odel   combination, ”  IEE ETrans act io ns on  Speech  an Audi o   Proc essing ,   vo l. 4, no. 5, pp. 3 52 359,   Se 1996.   [11]   C.   W eng,   D.  Yu,  S.  W at ana be,   an B.   H.  F.  Juang,   Rec urre nt  dee p   neur al   net works   for  robust  spee ch  rec ognition,”  in  2014  I EEE  Int ernati onal   Confer enc on   A coustics,  Spe ec h   and  S ignal   Proce ss ing ,   Ma y   2014,   pp.   5532 5536.   [12]   Y.  Zha ng ,   W .   C han,   and  N.   Jaitl y ,   Ver y   de ep  c onvolut ional  n etw orks  for  end - to - end  spee ch  r ec o gnit ion,”  in  201 IEE E   Inte rnat io nal  Conf ere nce  on  Ac oust ic s,   Sp ee ch   and  S ignal   Proce ss ing ,   M ar ch  2017,   pp.   484 5 4849.   [13]   S.  La wrenc e,   C .   L.   Gi le s,  A.  C.   Tsoi,   and  A.  D.  Bac k ,   Face   r e cogni t ion:   convol uti on al  neur al - n et wor k   appr oac h ,   IE EE t rans act ions o n   neural  ne tworks ,   vol. 8, no. 1, pp. 98 113,   1997.   [14]   P.  Sw ie tojanski,   A.  Ghos hal ,   and   S.  Ren al s,   Convolut ional  n eur a ne tworks  for  di stant   spe ec h   recognit ion,”  I EEE   Signal   Proce ss in Letters ,   vol .   21 ,   no .   9 ,   pp .   1120 1124,   2014 .   [15]   T.   N.  Sa ina th ,   A. - r.   Moham ed,  B.   Kingsbur y ,   and  B.   Ramabh adr an,  Dee c onvolut ional  ne ura ne tworks  for   lvc sr,” in   2013  I EE E   Inte rnat ion al  Conf ere nce o Ac oust ic s,   Spe ec and   Signa P roce ss ing ,   2013 ,   pp.   8614 8 618.   [16]   T.   N.   Sainath,   B.   Kingsbur y ,   A. - r.   Moham ed,  G.  E .   Dahl ,   G.   Saon,   H.  Sol tau,  T .   Ber an,  A.  Y.  Aravki n,   and   B .   Ramabhadr an ,   Im prove m ent to  dee convol u ti onal  neur al   n e tworks  for  lvc sr , ”  in  2013  I EEE  Workshop  on   Aut omatic Speec Recogni t ion  a nd  Unders tandi n ( ASR U) ,   2013,   pp.   315 320.   [17]   O.  Abdel - Ham i d,   A. - r .   Moham ed,   H.   Jiang ,   an G.  Penn,   Appl y ing  convo lut i onal   n eur al  netw orks  conc ept t o   h y brid  nn - hm m   m odel   for  spee c rec ogni ti on, ”  i 2012  IEE E   Int ernati onal  Conf ere nce   on  Ac ous ti cs,   Sp ee ch  an d   S ignal   Proce ss in g ,   2012 ,   pp .   427 7 4280.   [18]   Y.  Bengi o,   A.  Courvil le,  and  P.  Vince nt ,   Repres ent at ion  l ea rn in g:  rev ie and  new  per spec ti v es, ”  IEEE  trans - act ions o n   pattern anal ysis  and   m achi ne   intelligen ce ,   vol .   35 ,   no .   8 ,   pp .   1798 1828 ,   2013.     [19]   R.   Hae b - Um bach  and  H.  Ne y ,   Li nea discr iminant   an aly s is  for  improved  la rg voca bu la r y   co nti nuous  spee c h   rec ogni ti on, ”  in  1992  IEEE   In te r nati onal  Con fe r enc e   on  Ac ousti cs,   Spe ec h   and  Signal   Proce ss i ng,   1992 ,   pp .   13 16.   [20]   L.   Burget,  Com bina ti on  of  spee ch  fe at ur es  using  sm oo the het ero sc eda sti li ne ar  discri m in ant   anal y s is.”   i n   Inte rs pee ch ,   200 4.   [21]   R.   A.   Gopinat h ,   Maximum   li kel ihood   m odel in with  g aussian   distri but ions  fo class ifi c at ion ,   in  1998   IE EE   Inte rnational   Co nfe renc on   Ac o ustic s,  Sp eech  a nd  Signal P roc e ss ing,   1998,   pp.   661 664.   [22]   D.  Pove y ,   B.   Ki ngsbur y ,   L .   Mangu,   G.  Saon,   H.  Solta u,   and  G.  Z weig,   fm pe:   Discriminat iv ely   tr ai ned  fe at ur es  for  spee ch  r ec ogni tion,”   in  2005  I E EE   Int ernati ona Confe ren ce   o n   Ac ousti cs,   Sp eech  and  Signa P roce ss ing,   2005,   pp.   I 961 .   [23]   T.   Yos hioka,  A.   Ragni,  and   M.  J.  Gale s,   Inve st iga ti on   of  unsup erv ised  ada pt at i on  of  dnn  ac ous ti m ode ls  with   fil ter  bank  input,”   in  2014  IEEE   Inte rnational   C onfe renc on  Acous ti cs,   Speech  and  Signal   Proc essing ,   2014,   pp .   6344 6348.   [24]   S.  Geir hofe r ,   Feat ur red u ct ion   with  li n ea d isc riminant   an aly si and  it per for m anc on  phone m rec ogni ti on ,   Department   of   E le c tric al   and  Co mputer  Engi n ee r ing:  Univ ersity o Il li nois a Ur bana - Champaign ,   2004.   [25]   M.  Gale s,  Max imum   li kel ihood   li near  tra nsfor m at ions  for  hmm - base d   spee ch  rec ogni ti on, ”  C o mputer  Spee c h   &   Language ,   vol .   1 2,   no .   2 ,   pp .   75     98,   1998.     [26]   M.  J.  Gal es,   Se m i - ti ed  cova ri an ce   m at r ic es  fo hidde m ark ov  m odel s,”   I E EE   t rans act ions  on  spee ch   and  audio   proce ss ing,   vol .   7,   no .   3 ,   pp .   272 281,   1999 .   [27]   A. - H.  Os sam a,   M .   Abdel - rah m an,   J.  Hui ,   D.  Li ,   P.  Ger al d ,   a nd  Y.  Dong,  Convolut ional  n eur al   n et works   for  spee ch  r ec ogn it i on, ”  I EEE  Signa Proc essing  Ma gazine ,   vo l. 22,  no.   10 ,   2014 .   [28]   K.  Vesel ` y ,   A.  Ghos hal ,   L .   Bur get ,   and  D.   Pove y ,   Sequence - d iscri m ina ti v training  of  d ee n e ura n et works . ”  in   INTERSP EE CH ,   2013,   pp.   2345 2349.   [29]   H.  Hirsch,  Aurora - exp eri m en ta f ramework  f or  the  per form a nce   eva lu at ion   o spee ch   re cognition  in   c ase   of  hands - fre e   spee c input in nois y   envi ronm ent s,”   Nie derrhein   Uni v.   o f Appl i ed  S cienc es ,   20 07.                   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2088 - 8708   In t J  Elec  &  C om En g,   V ol.  8 , N o.   6 Dece m ber   201 8   :   5381   -   5388   5388   BIOGR AP H I ES   OF  A UTH ORS       Hilman  Parde de   is  rese arc h er   at   Resea r ch  C ent er  for  Infor m at ic s,  Indone si an  Instit ut of  Scie nc es.   He   o bta in ed  his  B a che lor   Degre in  Elec tri c al   E ngine er ing  from   Univer sit y   of  Indone sia  in  200 and  Master   of   Engi ne eri ng  fro m   the   Univer sit of  W este rn  Aus tra lia  in   2009.   He  recei ved   his  Doctor   of  E ngin ee ring   from   Tok y Inst it ut of  T ec hnolog y   in  20 13.   He  d id  postdoct ora at   Fondazi one  Bru no  Kess le in  T ren to  It aly   from   2013  to  2015.   His  rese arc h   int er ests  inc l ude   are   spee ch  rec o gnit ion,   pa ttern  rec ogni ti on,   sign al   proc essing,   m ac hin le arn ing   and  art if ic i al   intell ig ence.   He  is  an  IEE m em ber   and  rev ie we for  Speec Com m unic at ions   (El sevi er)   and  Inte rna ti ona Journal  of  Mac hine  Le arn ing  and  C y ber n etics  (Springer ).   He  a lso  has  serve d   as  r ev ie wers i n   seve r al i nt ern ational c o nfe ren c es.         As ri  Riz ki  Yul i ani   is  rese archer  a Rese arc h   Cent er   for  Info rm at ic s,  Indon esia Insti tut e   of   Scie nc es.   She  e arn ed  ba chelor  degr ee   in  Com pute Sci ence  fro m   the   Univer sit y   of  Te kno logi  Malay s ia   in  200 and  m aste degr ee   in  Inform ation  Mana gemen from   Yuan  Ze   Univer sit y   in  2013.   Her  r ese arc in te r ests  i ncl ude  spe ec h   rec ogni ti on,   patter re cognition ,   and  m a chi ne  le arn ing.         Rika   Sus ti ka   is  rese ar che at   R ese arc C ent e for  Inform at ic s,  I ndonesia Institute  of  Scie n ce s   (LI PI).  She   ea rn ed  ba che lo and   m aste degr ee   in   Elec tr ical  Engi n ee ring   from   Ban dung  Instit ut of  Te chnol og y   ( ITB).   Her  rese ar ch  int er ests  are   i the   area  of  signal   proc e ss ing.   Since   Janu a r y   2017  joi ned  wit m ac hine   learn ing  rese ar ch  gro up.   Inte r este fo using  dee lea rning  on  m an y   appl i ca t ion  such   as  on  spe ec recognit ion, i m ag e rec ogni ti on,   and   nat ura l angua g e   proc essing.       Evaluation Warning : The document was created with Spire.PDF for Python.