I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   9 ,   No .   4 A u g u s t   201 9 ,   p p .   2 4 4 3 ~2 4 5 0   I SS N:  2 0 8 8 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v9 i 4 . p p 2 4 4 3 - 2450          2443       J o ur na l ho m ep a g e h ttp : //ia e s co r e . co m/ jo u r n a ls /in d ex . p h p / I JE C E   H ig lev el sp ea ke r specifi c f ea tures   a s a eff i ciency  e nha ncing   pa ra m et ers   in  s pe a k er  rec o g nition s y ste m       Sa t y a na nd   Sin g h   S c h o o l   o f   El e c tri c a a n d   El e c tro n i c s   En g in e e rin g ,   F ij i   Na ti o n a Un i v e rsit y ,   F ij Isla n d       Art icle  I nfo     AB ST RAC T     A r ticle  his to r y:   R ec eiv ed   Dec   5 ,   2 0 1 8   R ev i s ed   J an   2 1 ,   2 0 1 9   A cc ep ted   Mar   11 ,   2 0 1 9       In   th is  p a p e r,   p re se n h ig h - lev e sp e a k e sp e c i f ic  fe a tu re   e x trac ti o n   c o n sid e ri n g   in t o n a ti o n ,   li n g u ist ics   rh y th m ,   li n g u isti c stre ss ,   p r o so d ic   f e a tu re d irec tl y   f ro m   sp e e c h   sig n a ls.  a ss u m e   th a th e   rh y th m   is   re late d   to   lan g u a g e   u n it su c h   a s y ll a b les   a n d   a p p e a rs  a c h a n g e in   m e a su ra b le   p a ra m e ters   su c h   a f u n d a m e n t a f re q u e n c y   F o ,   d u ra ti o n ,   a n d   e n e rg y .   In   th is  w o rk ,   th e   sy ll a b le  t y p e   f e a tu re a re   se lec ted   a th e   b a sic   u n it   f o e x p re ss in g   th e   p ro so d ic  f e a tu re s.  T h e   a p p ro x im a t e   s e g m e n tatio n   o f   c o n ti n u o u sp e e c h   t o   sy ll a b le  u n i ts  is  a c h iev e d   b y   a u to m a ti c a ll y   lo c a ti n g   th e   v o w e sta rti n g   p o in t.   T h e   k n o w led g e   o f   h ig h - lev e sp e a k e r’ sp e c if i c   sp e a k e rs  is  u se d   a a   re fe re n c e   f o e x tra c ti n g   th e   p ro s o d ic  f e a tu re o f   th e   sp e e c h   sig n a l.   Hig h - lev e sp e a k e r - sp e c i f ic  fe a tu re e x trac ted   u sin g   th is  m e th o d   m a y   b e   u se f u in   a p p li c a ti o n su c h   a sp e a k e re c o g n it io n   w h e re   e x p li c it   p h o n e m e /s y ll a b le  b o u n d a ries   a re   n o re a d il y   a v a il a b le.  T h e   e ff ici e n c y   o th e   p a rti c u lar  c h a ra c teristics   o f   th e   sp e c i f ic  f e a tu re u se d   f o r   a u to m a ti c   sp e a k e re c o g n it io n   w a e v a lu a ted   o n   T IM IT   a n d   HT IM IT   c o rp o ra   in it ially   sa m p led   in   th e   T IM IT   a 1 6   k Hz   to   8   k Hz .   In   su m m a r y ,   th e   e x p e ri m e n t,   th e   b a sic   d isc ri m in a ti n g   s y ste m ,   a n d   th e   HMM   s y ste m   a re   f o r m e d   o n   T IM IT   c o rp u w it h   a   se o f   4 8   p h o n e m e s.  P ro p o se d   A S sy ste m   sh o w 1 . 9 9 % ,   2 . 1 0 % ,     2 . 1 6 %     a n d     2 . 1 9   %   o f   e ff icie n c y   i m p r o v e m e n ts   c o m p a re   to   trad it io n a A S sy ste m     f o < 1 0   m s,  < 2 0   m s,  < 3 0   m a n d   < 4 0   m s   o f   1 6 KH z   T IM IT   u tt e ra n c e s.    K ey w o r d s :   Au to m a tic  s p ea k er   r ec o g n itio n   ( A S R )   C o n f id en ce   m ea s u r ( C M)   Dee p   n eu r al  n e t w o r k s   ( DNN)   Gau s s ia n   m i x er   m o d el  ( GM M )   Mel - f r eq u en c y   ce p s tr al  co ef f icie n t s   ( MFC C )     Co p y rig h ©   2 0 1 9   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts re se rv e d .   C o r r e s p o nd ing   A uth o r :   Sat y a n an d   Si n g h ,     Sch o o l o f   E lectr ical  an d   E lectr o n ics E n g i n ee r in g ,   Fij i N atio n al  Un i v er s i t y ,   Fij i I s lan d .   E m ail: sa t y a n a n d . s in g h @ f n u . ac . f j       1.   I NT RO D UCT I O N   T h lan g u ag e   is   m ai n l y   f o r   p ass in g   i n f o r m atio n   f r o m   o n e   p er s o n   to   o th er   p er s o n   i n   d a y   to   d a y   lif e   [ 1 ] .   I is   tr an s m itted   th r o u g h   s er ies  o f   leg a s o u n d   u n its .   T h is   s eq u e n ce   m u s r esp ec th co n s tr ai n ts   i m p o s ed   b y   t h la n g u a g e.   T h er ef o r e,   s p ee ch   a n d   la n g u a g e   ar co m p li m e n ts   o f   ea ch   o th er   an d   it   ca n   n o be   s ep ar ated .   B ec au s ea ch   s p ea k e r   h as  u n iq u p h y s i o lo g ical  ch ar ac ter is tic s   o f   s p ee ch   an d   s p ee ch   g en er atio n   s t y le  an d   s p ea k er - s p ec if ic  f ea t u r es  ar also   in te g r ated   in to   th s p ee ch   s i g n al.   T h er ef o r e,   th s p ee ch   s ig n al  co n tain s   n o o n l y   t h ex p ec ted   m es s ag b u also   t h lan g u a g an d   s p ea k er   s p ec i f ic  c h ar ac ter is tics .   I n   ad d itio n ,   th e m o tio n al  s tat o f   th s p ea k er   is   al s o   tr an s m itted   t h r o u g h   w o r d s   [ 2 ,   3] .   T h s p ee ch   m es s ag e   p ar is   m ai n l y   e x p r ess ed   as  s er ies  o f   le g al  s o u n d   u n its ,   ea ch   co r r esp o n d in g   to   t h m an n er   an d   lo ca tio n   o f   s p ee ch   p r o d u ctio n   b y   a   p ar tic u lar   s o u n d   u n it.  T h e   lan g u ag e ,   e m o tio n s   a n d   s p ea k er   p ar ts   o f   t h i n f o r m atio n   co n tain ed   i n   t h s p ee ch   s i g n a ar d er iv ed   u s i n g   s ev er al  le v els  o f   f u n ctio n a lit y .   E x i s ti n g   s p ea k er ,   lan g u a g e,   e m o tio n ,   a n d   s p ee ch   r ec o g n i tio n   s y s te m s   r el y   o n   f ea t u r es  d er iv ed   f r o m   t h s h o r t - ter m   s p ec tr al  an al y s is .   Ho w e v er ,   th s p ec tr al  ch ar ac t er is tics   ar af f ec ted   b y   ch a n n el  an d   n o is ch ar ac ter i s tics .   T h is   h as  p r o m p ted   r esear ch er s   to   e x p lo r th e   u s o f   ad d itio n al   f ea tu r es   t h at  m a y   p r o v id ad d itio n al  e v id e n ce   of   s p ec tr u m - b ased   s y s te m .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t 2 0 1 9   :   2 4 4 3   -   2450   2444   Sp ee ch   p r o ce s s in g   r esear ch   a i m s   to   i m p le m en m ac h i n es  c ap ab le  o f   p er f o r m i n g   au to m at ic  s p ee ch   r ec o g n itio n ,   s p ee ch   s y n t h esi s ,   s p ea k er   r ec o g n itio n ,   a n d   m a n y   o t h er   s p ee ch   p r o ce s s in g   ta s k s   s u ch   a s   s p ee c h   r ec o g n itio n   b y   m ac h in lik e   h u m a n   [ 4 ,   5] .   T h r esear ch er s   s u cc ee d ed   in   d e v elo p in g   s p ee ch   s y s te m s   o p er atin g   in   r estricte d   e n v ir o n m e n t.  Ma n y   o f   t h ese  s y s te m s   r el y   s o lel y   o n   ac o u s t ic  m o d els  f o r m ed   u s i n g   s p ec tr al  ch ar ac ter is tic s .   T h ese   ac o u s tic  m o d els  lac k   m u c h   h ig h er - lev e i n f o r m atio n   t h at   h u m a n s   u s e   f o r   t h e   s a m ta s k .   T h h i g h est le v els  o f   in f o r m atio n   in c lu d p r o s o d y ,   co n tex t,  an d   v o ca b u lar y   k n o w led g e.   I is   u n d er s to o d   th at  t h i n tr o d u ctio n   o f   t h k n o w l ed g o f   p r o s o d y   i n to   au to m at ic  s p ea k er   r ec o g n itio n   ( A S R )   s y s te m   o f   th v o ca s y s te m s   w il m a k t h e m   m o r in te l li g en t   an d   s i m ilar   to   h u m an s   [ 6 ] .   Var io u s   r esear ch er s   i n   t h p ast  h a v estab li s h ed   t h i m p o r tan ce   o f   p r o s o d ic  f ea tu r es  f o r   s p e ec h   p r o ce s s in g   ap p licatio n s   [ 7 ] .   Un f o r tu n atel y ,   i n co r p o r atio n   o f   p r o s o d y   i n to   t h s p ee ch   s y s te m s   h a s   to   ad d r ess   s e v er al   is s u es.  O n m aj o r   is s u is   t h e   au to m atic  e x tr ac tio n   an d   r ep r esen tatio n   o f   p r o s o d y   a n d   its   ap p licatio n   in   s p ea k er   r ec o g n itio n   to   en h a n c th ef f icien c y   o f     A SR .   O u r   f u n d a m e n tal  u n d er s tan d i n g   o f   th p r o ce s s es  in   m o s o f   t h s p ee ch   p er ce p tio n   m o d u les   i n   Fi g u r 1   is   r u d i m e n tar y   at  b est,  b u i is   g e n er all y   a g r ee d   th at   s o m e   p h y s ical  co r r elate   o f   ea c h   o f   t h s tep s   i n   t h s p ee ch   p er ce p ti o n   m o d el  o cc u r   w it h i n   t h h u m an   b r ain ,   a n d   t h u s   th en t ir m o d el  is   u s e f u f o r   th in k i n g   ab o u t th p r o ce s s es t h at  o cc u r.           Fig u r 1 .   T h Sp ee ch   Gen er ati o n   C h a in   o f   No r m al  A u d ito r y   S y s te m       2.   P RO SO DY  H I G H     L E V E L   SPEAK E SPEC I F I F E A T UR E S IN  SPEAK E RE C O G NI T I O N   Sh o r t - ter m   ce p s tr al  f ea tu r e s   ar o f te n   r ef er r ed   to   a s   lo w   le v el s   r ef lec ts   th e   s p ea k er 's  v o ice  r ath er   t h a n   ca p tu r in g   h ig h   le v el  s p ea k er   s p ec if ic  f ea t u r es ,   r h y t h m ,   a n d   v o ca b u lar y   i n f o r m atio n .   Un f o r tu n atel y ,   s o m e   p r o s o d ic  f ea tu r es  ar v er y   d if f ic u lt  to   ca lc u late,   w h ile  o t h e r s   ar d if f ic u lt  to   d ed u ce   s o l el y   f r o m   ac o u s t ics     ( eg ,   th e   r o u n d n es s   o f   lip s ) .   As  r es u lt,  m o r e   a n d   m o r f ea tu r es  ar r ec ei v i n g   i n cr ea s i n g   atten t io n   o v er   t h e   p ast d ec ad e.   Sp ee ch   is   tr an s m itted   t h r o u g h   s er ies  o f   le g al  s o u n d   u n its   i n   t h la n g u a g e.   W ith   th o r d e r   o f   s o u n d   u n i ts ,   s o m b u ilt - i n   f ea t u r es  g i v n atu r al  v o ice.   T h p itch   c h an g p r o v id es  i d en ti f iab le  m elo d y   attr ib u tes  f o r   s p ee ch .   T h is   co n tr o lled   m o d u latio n   o f   s o u n d   is   ca lled   in to n at io n .   T h u n i o f   s o u n d   is   s h o r ten ed   o r   len g th e n ed   ac co r d in g   to   s o m b asic  m o d es to   g i v ce r tain   r h y t h m   to   th v o ice.     T h er ar f e w   s y llab le s   o r   w o r d s   m a y   b m o r e   i m p o r tan t h an   o t h er s ,   ca u s i n g   la n g u a g e   p r ess u r e.   T h in to n atio n ,   r h y t h m ,   an d   p r ess u r o f   s p ee ch   in cr ea s e   t h i n telli g ib ilit y   o f   s p ee c h   i n f o r m atio n ,   allo w i n g   lis te n er s   to   ea s il y   d iv id co n t in u o u s   s p ee ch   i n to   s en ten ce s   an d   w o r d s   [ 8 ] .   I also   co n v e y s   m o r v o ca b u lar y   an d   n o n - v er b al  i n f o r m atio n   s u ch   as   v o ca l   to n e s ,   lo u d   to n e s ,   ac ce n ts ,   a n d   e m o tio n s .   T h e   ch ar ac ter is tics   th a m ak u s   p er ce iv t h ese  e f f ec t s   ar co llectiv el y   ca lled   p r o s o d y .   H u m an   P r o s o d y   is   u s ed   to   o b tain   in f o r m atio n   s u c h   a s   e m o tio n s ,   w o r d /s en t e n ce   b o u n d ar ies,  s p ea k er   c h ar ac ter is tics   an d   lan g u ag e   ch ar ac ter is tics ,   w h ic h   ar e   u s ed   f o r   s p ea k er   id en ti f icatio n .   E ac h   p r o m p is   co m p le x   p er ce p tu al  en t it y   m ai n l y   r ep r esen ted   b y   th r e e   ac o u s tic  p ar a m eter s : to n e,   en e r g y ,   an d   d u r atio n .     2 . 1 .     I nto na t i o a s   s pea k er   s pecif ic  f ea t ures   in ASR  s y s t e m   P itch   is   t h p er ce iv ed   p r o p er ty   o f   s o u n d   a n d   ca n   b d escr i b ed   as  p er ce p t io n   o f   s o u n d   r elativ to   p itc h   [ 9 ] .   T h e   p h y s ica co r r elatio n   o f   p itch   is   th f u n d a m e n tal  f r eq u e n c y   ( F 0 )   d eter m i n ed   b y   t h v ib r atio n al   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     IS SN: 2 0 8 8 - 8708       Hig h   leve l sp ea ke r   s p ec ific fe a tu r es a s   a n   efficien cy   en h a n cin g   p a r a mete r s   in   s p ea ke r …    ( S a tya n a n d   S in g h )   2445   r ate   o f   th v o ca co r d s .   T h s et  o f   p itch   ch an g e s   d u r in g   s p e ec h   is   d ef i n ed   as  in to n a tio n   [ 10 ] .   T h F 0   r an g e   d ep en d s   o n   th len g t h   an d   m a s s   o f   t h e   v o ca co r d   o f   a   s p ea k er .   Fo r   m en ,   it  i s   u s u a ll y   b et wee n   8 0   an d   2 0 0   Hz,   an d   f o r   w o m e n ,   b et w ee n   1 8 0   an d   4 0 0   Hz  ( a p p r o x im a tel y )   f o r   co n v er s atio n a s p ee ch .   I n   th is   r an g e,   ea ch   s p ea k er   ca n   p r o d u ce   a n   i n cr ea s a n d   d ec r ea s o f     F 0 .   T h d ir ec tio n   i n   w h ic h   F 0   ch a n g e s   ( u p   o r   d o w n )   is   d eter m i n ed   b y   t h s p ee ch   p atter n   th at  m ak e s   u p   th w o r d .   Fig u r 2   s h o w s   t h ev o l u t io n     0   o f   th m a n   s tate m en i n   Co lleg o f   E n g ineering   Science  T ec hn o lo g y .   I ca n   b o b s er v ed   th at  th v al u F 0   is   d is co n ti n u o u s   b ec au s o f   t h p er io d ic  ch ar ac ter   o f   th s p ee ch   d u r i n g   th v o ca r eg io n   ( v o w el,   n a s al,   s e m i to n e,   co n s o n a n t,  etc. )   an d   th ap er io d ic  n at u r d u r i n g   th s ile n r eg io n .   T h s m all  d is t u r b an ce s   i n   t h F 0   p r o ce s s   ar m ai n l y   d u to   th i n v o l u n tar y   asp ec t s   o f   th la n g u ag e.             Fig u r 2 .   Var iatio n   o f     f o r   th Utter an ce   C o lle g o f   E n g i n ee r in g   Scien ce   &   T ec h n o lo g y   w o r d s   s tr ess ed       2 . 2 .     L ing uis t ics St re s s   a s   Sp ea k er   S pecif ic  F ea t ures   in A SR Sy s t e m   I n   lin g u is t ics,  s tr es s   is   t h ab i lit y   to   g iv r elati v i m p o r ta n c to   ce r tain   s y l lab les  o r   s en te n ce s   o f   a   w o r d   o r   to   ce r tain   w o r d s   o f   s en te n ce .   T h er ar p r ess u r es  in   m a n y   lan g u ag e s   o f   th w o r ld .   Stre s s   is   a n   attr ib u te  o f   th s tr u ct u r al  lan g u ag o f   w o r d   th at  in d icate s   w h ic h   s y llab le  in   w o r d   is   s tr o n g er   in   o n s e n s e   th an   a n y   o th er   s y llab le.   On o f   th i m p o r ta n th e m es  o f   t h r esear ch   o n   s p ee ch   h as  al w a y s   b ee n   th e m p h as i s   on   th ac o u s tic  an d   p er ce p tu al  ch ar ac ter is tic s   o f   attr ib u t es:  s y llab le s   ar d is tin g u i s h e d   f r o m   u n s tr ess ed   s y llab le s   t h at  s u r r o u n d   t h e m ,   o r   in   m o r co n tr o llab le  wa y ,   th e m p h asi s   o n   s y l lab les  d if f er s   f r o m   t h e   u n ac ce n ted   i m p le m en ta tio n   o f   th e   s a m s y llab le.   T h i n tr o d u ctio n   o f   t h k n o w led g o f   p r o s o d y   in to   au to m at io n   o f   t h A S R   s y s te m s   w ill  m ak t h e m   m o r in tel li g en t a n d   s i m i lar   to   h u m a n s   [ 11 ] .       2 . 3 .     L ing uis t ics  Rhy t h m   a s   Sp ea k er   Sp ec if ic  F ea t ures   i n   ASR  Sy s t e m   T h r h y th m   co r r esp o n d s   to   th to tal  d u r atio n   o f   s p ee ch .   Sev er al  ex p er i m en ts   w er co n d u cted   to   s tu d y   t h r h y t h m ic  p atter n   o f   s p ee ch   b y   r ep lacin g   t h e   o r ig in al   s y llab le  w it h   m ea n in g le s s   s y llab le,   p r eser v in g   t h o r ig in al   d u r ati o n   d u r atio n   a n d   th e   o r ig i n a s tr ess   p atter n .   Fo r   e x a m p le,   MA N   i n   ST R E E T ”  m i m ics  " ad Dad aDa "   in   w h ic h   ca p ital  letter s   ar ac ce n ted ,   ass u m in g   t h at  t h s y llab le  i s   th b as ic  u n it  o f   s p ee ch   s y n c h r o n izatio n .   T h is   ca n   b d o n i n   t w o   w a y s ,   e ith er   to   p r eser v t h to n p at ter n   o f   t h o r ig in a l   u tter an ce ,   o r   to   r e m ai n   m o n o to n o u s .   T h is   e x p er i m en d ea l s   w it h   t h te m p o r al  m o d els  a s s o ciate d   w it h   t h e   p er ce iv ed   s tr u c t u r o f   t h p h o n etic  r h y t h m s   ar e   n o   lo n g er   e m p h a s i ze s   t h asp ec t s   t h at  ar n o t   e n h a n ci n g   ef f icien ic y   o f   A S R   [ 12 ] .   E v en   in   t h ab s en ce   o f   lan g u ag e,   b ab ies  ar ab le   to   r ec o g n ize  t h f a m i l iar   k n o w led g o f   r h y t h m ic  p atter n s .   Ho w e v er ,   d if f er e n m o d es  th at  ca u s co n ti n u o u s   c h an g es  ca n   n o b e   ea s il y   s ep ar ated .   H is to g r a m   o f   al th e   p itc h   p e r io d s   f o u n d   i n   t h s p ee c h   s i g n al  co lleg d i s tr ib u ted   ac o r d in g   to   th eir   f u n d a m en ta f r eq u e n c y   i s   s h o w n   in   F ig u r 3 .   W h er A lt  T x   is   h is to g r a m   o f   all  t h p itch   p er io d s ,   r eg u lar   T x   is   h is to g r a m   o f   all  th r e g u l ar   p itch   p er io d s   an d   Q x   is   a   h is to g r a m   o f   th clo s ed   q u o tien v al u es  d i s tr ib u ted   ac o r d in g   to   th eir   f u n d a m e n tal   f r eq u en c y   F o .   T h clo s ed   q u o tien is   an   est i m a te  o f   th er   p ec en tag ti m t h e   v o ca f o ld s   r e m ai n ed   clo s ed   in   ea c h   p itc h   p er io d .     J itter   is   m ea s u r o f   p er io d - to - p er io d   f lu ct u atio n s   i n   d u r atio n   f r o m   th m ea n   tak e n   o v er   5   p itch   c y cles.   0 0 . 5 1 1 . 5 2 2 . 5 3 - 0 . 4 - 0 . 3 - 0 . 2 - 0 . 1 0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 ( a )   P l o t   o f   a c o u s t i c   s i g n a l   " C o l l e g e   o f   E n g i n e e r i n g   S c i e n c e & T e c h n o l o g y " T i m e   [ s ] A m p l i t u d e   ( n o r m a l i ze d ) 500 1000 1500 2000 2500 3000 0 50 100 150 200 Hz T i m e   ( m s e c s ) ( b )   C o r r e s p o n d i n g   v a r i a t i o n   o f   F 0   v a l u e s Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t 2 0 1 9   :   2 4 4 3   -   2450   2446       Fig u r 3 .   H is to g r a m   o f   all  t h p itch   p er io d s   f o u n d   i n   th e   r ec o r d in g ,   d is tr ib u ted   ac o r d in g   to   th eir   f u n d a m e n tal  f r eq u en c y       3.   P RO B AB I L I S T I F O RM UL AT I O O F   H I G H   L E V E L   SPEAK E SPEC I F I F E A T UR E S   I d en tify   t h p r o b le m   t h at  ca n   b ex p r ess ed   as  th m o s t   li k el y   s p ea k er   o r   lan g u a g o r   e m o tio n al  o r   s o u n d   B *   o f   i n p u s p ee ch   f r o m   k n o w n   s p ea k er s   o r   lan g u ag es  o r   m o o d s   o r   s o u n d   u n its .   L et    { B i } , 1 j N   i s   d en o ted   th s et  o f   clas s es  w h ich   is   r ep r esen ti n g   lan g u ag e,   s p ea k er   an d   s o u n u n it.  T h o b s er v atio n   d er iv e d   f r o m   t h i n p u o f   s a m p le  s p ee ch   s i g n al  i s   d en o ted   b y   O .   T h p r o b a b ilis tic  f o r m u latio n   o f   h i g h   lev el   s p ea k er   s p ec if ic  f ea t u r es c an   b f o r m u lated   as f o llo w s :     =   ( | )   ( 1 )     W h er p o s ter io r   p r o b a b ilit y   o f   class   B i   is   r ep r esen ted   as  P ( B i | O )   f o r   co n s id er ed   s p ee ch   s ig n a l   u tter an ce   o f   s p ek er   ex p r es s e d   in   ter m s   o f   O .   T o   r e p r esen p r o b ab ilis tic  f o r m u latio n   ass u m i n g   o b s er v a tio n   O   b elo n g i n g   to   o n   o f   th N   class es  { B i } , 1 j N .   A s   p er   r u le  d ef in ed   in   ( 1 )   th m ain   ai m   is     to   ch o o s th e   o b j ec tiv o f   class   B i   f o r   p o s ter io r   p r o b ab ilit y   P ( B i | O )   m u s b m a x i m u m   f o r   g iv e n   O .   A p p l y i n g   B ay es  r u l e   to   o b tain   p o s ter io r i p r o b a b ilit y ,     ( | ) = ( | ) ( ) ( )   ( 2 )     W h er lik eli h o o d   p r o b a b ilit y   i s   r ep r esen ted   as  ( | )   o f     w h ic h   i s   co r r esp o n d in g   to   th c lass     .   T h p r io r i p r o b ab ilit y   o f   t h cl ass     is   r ep r esen ted   as  ( ) .   T h en   th p r o b lem   ca n   b f o r m u lated   a s   f o llo w s :     =     ( | ) ( ) ( )   ( 3 )     T h er is   n o   r ea s o n   to   c o n s id er   o v er lap p in g   th class ,   ( )   ca n   b co n s id er ed   eq u al  f o r   all  class es  o f   d if f er e n s p ea k er   g r o u p s .   Her ( )   b elo n g s   to   all  class e s ,   th p r o b a b ilis tic  p r o b lem   ca n   b s i m p li f ied   to   r ed u ce   th co m p u tatio n al  co m p lex it y   a s   f o llo w s :     =       ( | )   ( 4 )     T h u s   s p ea k er   o r   lin g u is tic  o r   e m o tio n al  o r   s p ee ch   r ec o g n i tio n   tas k s   ar r eg ar d ed   as  est i m ate s   o f   p o s ter io r   p r o b a b ilit ies an d   ca n   b r ed u c ed   to   lik elih o o d   p r o b a b ilit y   est i m ate s   u n d er   s p ec if ic  as s u m p t io n s .     3 . 1 .     Sp ea k er   s pecif ic  f ea t ure  a s pect   o f   ind iv idu a l sp ee ch  s ig na l   Sp ea k er   ch ar ac ter i s tic s   v ar y   d u to   th d if f er en ce   i n   p h y s io lo g ical  c h ar ac ter is tic s   o f   s p ee c h   p r o d u ctio n   o r g an s   a n d   ac q u ir ed   o r   lear n ed   h ab its .   Featu r es   o f   A SR   ar r o u g h l y   d i v id ed   in to   f o u r   g r o u p s   o f   co n tin u o u s ,   q u alitati v e,   s p ec t r al,   an d   t ea g er   b ased   en er g y   o p er ato r   f ea tu r es,  an d   p r o s o d ic  f ea tu r es  ar class i f ied   in to   ca te g o r ies  o f   co n tin u o u s   s p ee ch   f ea t u r es  [ 13 ] .   R h y th m ic  f ea t u r es  ar r eliab le  in d icato r s   o f   e m o tio n   a n d   ar w id el y   u s ed   f o r   em o tio n al  r ec o g n itio n   [ 14 ] .   T h ar o u s al  s tate   o f   t h s p ea k er   h as b ee n   s t u d ied   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     IS SN: 2 0 8 8 - 8708       Hig h   leve l sp ea ke r   s p ec ific fe a tu r es a s   a n   efficien cy   en h a n cin g   p a r a mete r s   in   s p ea ke r …    ( S a tya n a n d   S in g h )   2447   to   in f l u e n ce   th o v er all  en er g y ,   f r eq u en c y ,   an d   d u r atio n   o f   th v o ice  p au s [ 1 5 ] .   E m o tio n s   li k an g er   ar e   ch ar ac ter ized   b y   h ig h   s p ee c h   r ate,   b u t f ee lin g s   o f   s ad n e s s   a r r elate d   to   w h is p er ed   s p ee d .   G au s s ia n   Mi x er   Mo d el  ( G MM )   [ 16 ]   an d   n eu r al  n e t w o r k   [ 17 ]   w er s u cc e s s f u ll y   u s ed   f o r   e m o tio n al   r ec o g n itio n .   SVM  i s   w id el y   u s ed   b y   r ese ar ch er s   to   class if y   e m o tio n s   [ 18 ] .   Dee p   n eu r al  n et w o r k s   ( DNN )   ca n   b u s ed   to   o b tain   h i g h er   le v el  f ea t u r es  f r o m   lo w - lev el  ac o u s tic  f ea t u r es  an d   t h en   to   o th er   clas s if ier s   f o r   e m o tio n   r ec o g n it i o n .   I n   [1 9 ] ,   f ea tu r es   o f   t h s e g m e n tatio n   le v el  in cl u d in g   Mel - f r eq u en c y   C ep s tr a l   C o ef f icie n ts     ( MF C C ) ,   p itch - b ased   f ea t u r es  ( p itc h   p er io d   a n d   h ar m o n ic  to   n o is e   r atio ) ,   an d   t h eir   d elta  v al u es   ar ex tr ac ted .       3 . 2   F us ing   hig her  s pea k er   s p ec if ic  f ea t ure  into   co nv ent io na l A SR a pp lica t io n   T h p r o s o d ic  m o d el  p r o v id es  an   ad d itio n al  k n o w led g s o u r ce   th at  th ac o u s tic  m o d el  ca n n o t   p r o v id e.   T h is   m a y   h elp   to   o v e r co m e   s o m o f   t h m is s   id e n ti f icatio n s .   T h er ef o r e,   co m b i n i n g   i n f o r m atio n   f r o m   m u ltip le  s o u r ce s   o f   e v id e n ce ,   k n o w n   as   f u s io n   tec h n o lo g y ,   h as  b ee n   w id el y   u s ed   in   s p ea k er s ,   la n g u a g es ,   e m o tio n s ,   an d   s p ee ch .   T y p ic all y ,   m a n y   d if f er e n f ea t u r s ets  ar e x tr ac ted   f r o m   t h e   s p ee ch   s ig n al,   th e n   a   s ep ar ate  class if ier   is   u s ed   f o r   ea ch   f ea tu r s et,   th e n   s u b - s c o r es  o r   d ec is io n s   ar co m b in ed .   T h is   m ea n s   th at   ea ch   s p ea k er   s to r es  p l u r alit y   o f   s p ea k er   m o d els  i n   th e   d atab ase.   I i s   g en er all y   b elie v ed   th at   s u cc es s f u l   f u s io n   s y s te m s   s h o u ld   b co m b in ed   in to   in d ep en d e n f ea t u r es.  P o s s ib le  lo w - le v el  s p ec tr al  ch ar ac ter is t ics,   p r o s o d ic  f u n ctio n ,   ad v an ce d   f u n ct io n .   T h s i m p le s f u s io n   m et h o d   is   to   co m b i n clas s i f ie r   o u tp u s co r es  w it h   w ei g h ted   s u m s .   T h at  is ,   g iv e n   s u b s co r s k   is   f u s io n   m atc h   o f   th i n d ex   clas s i f ier   k .     = ( , ) = 1      =          , =        ( 5 )     An o th er   w a y   to   co m b i n f ea tu r es  at  t h s co r le v el  i s   to   u s co n f id e n ce   m ea s u r e.   I n   [ 1 6 ] ,   th a u th o r   co n f ir m ed   t h at  co n f i d e n ce   b as ed   f u s io n   co m p le m en tar y   f ea t u r m eth o d   o f   co m b i n i n g   w av elet  m u lt ip licatio n   co ef f icie n t s   r esid u al  ( W OC O R )   an d   MFC C   f u n c tio n   f o r   s p ea k er   r ec o g n itio n .   T h is   m etr ic   is   d er iv ed   f r o m   th e   lik eli h o o d   s co r o b tain ed   f r o m   t h t w o   f ea t u r es .   I n   o r d er   to   ca m p u t e   th e   co n f id en ce   m ea s u r ( C M) ,   t h e   d is cr i m i n atio n   ab ili t y   o f   ea c h   f ea t u r in   p ar ticu lar   r ec o g n it io n   test   is   f ir s t c alcu lated   i s   g i v en   a s   f o llo w s :     =  |   ( /  , ) |               ( 6 )     w h er e     LL R j = l ogP ( s j λ c , j ) l ogP ( s j λ u , j )   ( 7 )     T h lo g - li k eli h o o d s   o f   th cl i en m o d el  a n d   b ac k g r o u n d   m o d el  ar r ep r esen ted   in   ( 6 )   an d   eq n .   ( 7 )   r esp ec tiv el y .   T h co m p u tat io n   o f   t h d is cr i m i n atio n   r atio   b ased   o n   th v al u f u n ctio n   o f   ea ch   tr ial  is   DR = D 1 D 2 .   Nex t,  co n f id an ce   m etr ic  is   ca m p u ted   b ased   o n   th D R   v alu as f o llo w s :      =  ( 1 1 + (  ) )   ( 8 )     T h v alu es  o f   α   an d   β   w er d ete r m in ed   b y   s etti n g   t h d ev elo p m en d ata  to   0 . 7 5   an d   2 ,   r esp e ctiv el y .   B ased   o n   C M,   s co r lev el  f u s i o n   is   d o n e,   w h ic h   r ep r esen ted   as f o llo w s :     LLR = LL R 1 + LL R 2 . CM                                                                   ( 9 )     As th f u s io n   s co r co m b in e s   w ei g h ted   LL R 1   an d   LL R 2 ,   th i s   C b ase d   s co r in g   f u s io n   m et h o d   y ield s   b etter   r esu lts   i n   ter m s   o f   f ix ed   w ei g h t f u s io n   ar r ep r esen ted   as f o llo w s :   2 . 5 4 0 3 2 . 4 9 6 0 2 . 3 4 0 0 1 . 6 5 0 2 1 . 5 5 8 5 1 . 4 6 6 9 1 . 3 7 6 8 1 . 2 0 9 7 1 . 1 3 7 7 1 . 0 3 2 0 1 . 0 0 5 4 1 . 0 2 3 9 1 . 2 8 1 3 1 . 4 3 5 8 2 . 7 5 5 5 2 . 9 1 0 6 2 . 9 8 0 7 2 . 8 6 1 7 1 . 0 1 9 3 1 . 0 3 9 2 2 . 9 9 7 4 2 . 8 3 9 2 1 . 0 6 9 6 2 . 9 9 0 9 2 . 6 7 1 7 1 . 0 2 3 1 2 . 9 7 8 9 1 . 0 2 9 3 2 . 9 1 9 1 1 . 9 5 6 0 1 . 5 8 8 7 1 . 1 9 9 3 1 . 3 9 7 3 1 . 0 5 3 8 2 . 9 9 9 0 1 . 0 5 7 7 1 . 6 9 1 3 1 . 0 3 5 7 .       4.   L AR G E   M ARG I AP P RO AC H   F O L E AR NIN G     AL I G NM E N T   I ASR  AP P L I CATI O N   A   s u p er v is ed   lear n i n g   a lg o r ith m   f o r   ali g n m e n r ec eiv es   tr ai n in g   s et  as  i n p u t   = { ( x ̅ 1 , p ̅ 1 , s ̅ 1   ) } , { ( x ̅ m 1 , p ̅ m 1 , s ̅ m 1   ) } , { ( x ̅ m , p ̅ m , s ̅ m   ) }   w h ich   r et u r n s   ali n m e n ed   f u n ctio n   f .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t 2 0 1 9   :   2 4 4 3   -   2450   2448   T o   p r o m o te  e f f icie n al g o r ith m s ,   I   r estrict   to   l i m i ted   k in d   o f   ali g n m e n t   f u n ctio n .   Mo r s p ec if icall y ,   it   i s   ass u m ed   t h at  th er i s   s et  o f   p r ed ef in ed   b asic  ali g n ed   f ea t u r f u n ctio n s { φ j } j = 1 n .   E ac h   b ase  ali g n m en s p ea k er   s p ec if ic  f ea t u r is   f u n ctio n   o f   th f o r m   φ j : . .   .   T h at  is ,   ea ch   b asic  ali g n m e n s p ea k er   s p ec if i c   f ea t u r x ̅   an d     s p ea k er   s p ec if ic  p h o n e m s eq u e n ce   p ̅ ,   to g eth er   w it h   t h ca n d id ate  ti m i n g   s eq u en ce   s ̅ ,   r etu r n s   a   s ca lar   v is u all y   r ep r esen ti n g   t h co n f id en ce   le v el  o f   th s u g g ested   ti m i n g   s eq u e n ce   s ̅ φ { x ̅ , p ̅ , s ̅ }   is   d en o tin g   n   v ec to r   w h o s j th   el m en t i s   φ j { x ̅ , p ̅ , s ̅ } I n   th is   p ap er   I   am   u s i n g   th t h a lig n m e n f u n ct io n   d ef i n ed   as f o llo w s :     ( ̅ , ̅ ) =  ma x ̅ . { ̅ , ̅ , ̅ }   ( 1 0 )     W ith   th SVM  al g o r ith m   f o r   b in ar y   clas s if icatio n ,   th m et h o d   o f   s elec tin g   th w ei g h v ec to r     is   b ased   o n   th co n ce p o f   lar g m ar g i n   s ep ar atio n .   B u i n   th i s   ca s e,   ti m i n g   is   n o j u s r i g h o r   w r o n g .   T h er ef o r e,   m y   g o al  is   n o to   s ep ar ate  th e   r ig h t i m in g   f r o m   t h w r o n g   ti m i n g ,   b u to   tr y   to   s o r t h s eq u en ce   b y   q u a lit y .   I n   th eo r y ,   m y   m et h o d   ca n   b d escr ib ed   as  t w o - s tep   p r o ce s s   f ir s b u ild   v ec to r   φ { x ̅ , p ̅ , s ̅ }   in   v ec to r   s p ac n   in   i n s id en b ased   ap p r o ac h   ( x ̅ i , p ̅ i )   in   tr ai n i n g   s et      an d   ea ch   p o s s ib le  ti m i n g   s eq u e n ce   s ̅ .    Se co n d     I   f i n d   v ec to r     th at  p r o j ec ts   th v ec to r   to     an d   s o r ts   th v ec t o r s   w n co n s tr u cted   in   t h f ir s s te p   ab o v e   b ased   o n   its   q u al it y .   I d ea ll y ,   f o r   ea ch   i n s ta n ce   ( x ̅ i , p ̅ i )   an d   ev er y   s u g g e s tab le  ti m i n g   to   k ee p   t h f o llo w i n g   co n s tr ain ts :     W . φ ( x ̅ i , p ̅ i , s ̅ i   ) w . φ ( x ̅ i , p ̅ i , s ̅   ) γ ( s ̅ i , s ̅   )   ( 1 1 )     T h co m p u ter   s i m u l a ted   v ec to r s   w n co n s tr u cted   in   th f ir s s tep   b ased   o n   its   q u alit y   is   r ep r esen ted   as f o llo w :   0 . 0 0 0 0 0 . 0 5 0 5 0 . 2 0 2 0 0 . 6 5 6 6 0 . 7 0 7 1 0 . 7 5 7 6 0 . 8 0 8 1 0 . 9 0 9 1 0 . 9 5 9 6 1 . 0 6 0 6 1 . 1 1 1 1 1 . 2 1 2 1 1 . 3 6 3 6 1 . 4 1 4 1 1 . 7 1 7 2 1 . 7 6 7 7 1 . 8 6 8 7 1 . 9 1 9 2 2 . 2 2 2 2 2 . 2 7 2 7 ,   2 . 5 2 5 3 2 . 5 7 5 8 2 . 7 7 7 8 2 . 9 2 9 3 2 . 9 7 9 8 3 . 0 8 0 8 3 . 2 3 2 3 3 . 3 3 3 3 3 . 4 3 4 3 3 . 5 8 5 9 3 . 7 3 7 4 3 . 9 8 9 9 4 . 2 9 2 9 4 . 4 4 4 4 4 . 5 4 5 5 4 . 6 9 7 0 4 . 7 9 8 0 4 . 9 4 9 5 .   W h er γ ( s ̅ i , s ̅   )   is   co s f u n ctio n   ass e s s in g   t h q u al it y   o f   s eq u e n ce s .   T h co n s tr ain o f   t h ex p r es s i o n   in   ( 1 0 )   m ea n s   th at  t h m ar g i n   o f   w   w it h   r esp ec to   p o s s ib le  tim i n g     s eq u e n ce   s ̅   m u s b g r ea t er   th an   th co s o f   th e   p r ed ictio n   s ̅   ,   n o t h tr u ti m i n g   s ̅ i .   Of   co u r s e,   i f   th w   r an k   i s   d i f f er e n a n d   t h p o s s ib le  ti m i n g   i s   ca lcu lated   co r r ec t ly ,   th m ar g in   r eq u ir e m e n g i v e n   b y   ( 1 1 )   ca n   s i m p l y   b s atis f ied   b y   m u ltip l y in g   w   b y   lar g s ca lar .   T h SVM  a lg o r it h m   is   s u b j ec ted   to   th co n s tr ain ts   g i v e n   i n   ( 1 1 )   b y   m i n i m i zin g   1 2 w 2   w h ich   s o lv es   th is   p r o b le m   r ep r ese n t ed   in   ( 1 0 ) .   Dec is io n   b o u n d ar i es  o f   m u ltic lass   SVM   v s   co n f id en ce   m ea s u r is   s h o w n   in   F ig u r 4 .             Fig u r 4 .   Dec is io n   B o u n d ar ies   o f   Mu lticla s s   SVM       I n   f ac t,  th er ar ca s es  w h er th co n s tr ai n g i v e n   b y   ( 1 1 )   c an   n o b s atis f ied .   I n   o r d er   to   o v er co m e   th is   o b s tacle ,   th e   f o llo w i n g   h in g e   lo s s   f u n ctio n   i s   d ef in ed   f o r   alig n m en i n   ac co r d an ce   w it h   t h s o f SVM   m et h o d .   L ar g m ar g i n e   a p p r o ac h   f o r   l ea r n i n g   a li g n m e n o f   s p ea k er 1   an d   s p ea k er s   2   i s   s h o w n   i n     Fig u r 5 .     C o m p u ter   s i m u late d   co s f u n ctio n   γ ( s ̅ i , s ̅   )   ass ess i n g   t h e   q u alit y   o f   s eq u e n ce s   is   r ep r e s en ted   as   f o llo w s :   0 . 2 4 2 3 ,   0 . 1 4 0 6 ,     0 . 1 0 3 1 ,   - 0 . 1 8 4 4 ,   - 0 . 0 2 3 3 ,   - 0 . 0 1 6 2 ,   - 0 . 2 7 5 8 ,   - 0 . 2 2 6 9 ,   - 0 . 2 0 4 6 ,   - 0 . 4 6 1 7 ,   - 0 . 0 7 6 4 ,   - 0 . 5 9 5 1 ,   - 0 . 4 0 9 5 ,   - 0 . 0 8 7 7 ,   0 . 1 7 3 8 ,     0 . 3 0 8 0 ,   0 . 3 7 0 5 ,     0 . 2 6 0 8 ,     - 0 . 5 2 4 8 ,     - 0 . 5 1 6 1 ,   0 . 6 8 9 3 ,     0 . 2 6 5 8 ,     - 1 . 4 6 2 4 ,     0 . 9 4 4 2 ,   1 . 6 2 7 1 ,   - 3 . 1 5 3 2 ,   3 . 4 5 9 3 ,   - 3 . 5 7 7 4 ,   1 . 8 6 9 1 ,     - 0 . 5 8 8 0 ,     - 0 . 2 1 7 5 ,     0 . 3 4 3 1 ,   0 . 2 9 8 6 ,     - 0 . 9 5 8 1 ,   1 . 1 6 8 6 3 ,     - 1 . 7 0 6 3 ,     0 . 8 6 2 5 ,   - 1 . 1 1 5 0   -1 - 0 . 5 0 0 . 5 1 1 . 5 2 0 0 . 2 0 . 4 0 . 6 0 . 8 1 1 . 2 1 . 4 1 . 6 1 . 8 2 D e c i s i on   B ou nd a r i e s   of   m ul t i c l a s s   S V M C os t   Fu nc t i on   C on f i de nc e   M e a s ure       Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     IS SN: 2 0 8 8 - 8708       Hig h   leve l sp ea ke r   s p ec ific fe a tu r es a s   a n   efficien cy   en h a n cin g   p a r a mete r s   in   s p ea ke r …    ( S a tya n a n d   S in g h )   2449   T ab le.   1   r ep r esen ts   b u ild i n g   la r g e   m ar g i n   d i s tan ce   m atr ix   f o r   lear n i n g   ali g n m e n t   w it h   r esp e ct  to   co s t   f u n ctio n ,   co n f id an ce   m ea s u r e,   s u p p o r t   an d   u p   s atu r atio n .       T ab le   1 .   B u ild in g   lar g m ar g i n   d is ta n ce   m atr i x   f o r   lear n in g   alig n m e n t   C o st   F u n c t i o n   C o n f i d a n c e   M e a su r e   # S u p p o r t   # U p   S a t u r a t i o n   1 . 2 4 5 0   1 . 0 0 0 0   1   0   0 . 0 0 0 0   1 . 0 0 0 0   2   0   - 1 . 0 4 5 1   1 . 0 4 5 1   3   0   - 2 . 4 5 3 9   1 . 3 4 7 9   4   0   - 9 . 7 1 1 3   2 . 9 5 7 5   5   0   - 3 . 5 8 5 6   2 . 6 9 2 2   4   0   - 4 . 0 2 3 6   0 . 1 2 2 1   5   0   - 5 . 8 7 7 9   0 . 4 6 0 9   6   0   - 6 . 7 9 8 7   0 . 1 5 6 7   7   0   - 1 . 7 1 2 5   1 . 5 1 8 8   6   0   - 2 . 4 5 0 1   0 . 4 3 0 8   5   0   - 2 . 4 8 9 2   0 . 0 1 6 0   6   0   - 2 . 5 2 7 3   0 . 0 1 5 3   7   0   - 4 . 9 0 8 0   0 . 9 4 2 0   8   0   - 6 . 2 0 2 6   0 . 2 6 3 8   9   0   - 8 . 2 6 7 5   0 . 3 3 2 9   8   0   - 8 . 3 8 7 6   0 . 0 1 4 5   9   0   - 8 . 9 1 0 7   0 . 0 6 2 4   8   0   - 9 . 9 5 1 3   0 . 1 1 6 8   9   0           Fig u r 5 .   L ar g Ma r g in A p p r o ac h   f o r   L ea r n in g   A li g n m e n o f   Sp ea k er 1   an d   Sp ea k er s   2 .       5.   E XP E RM E NT AL   S E T UP   F O ACCURACY A ND RO B UST N E SS   O F   ASR  AP P L I CATI O N   I   p er f o r m ed   s p ee ch - to - s p ee c h   ex p er i m en t u s in g   t h T I MI T   an d   HT I MI T   co r p u s   o r ig in all y   s a m p led   in   t h 1 6   k Hz  T I MI T   co r p   at  8   k Hz.   I n   all,   th e   ex p er i m en t,   th b as elin e     d is cr i m i n ati v   s y s t e m   a n d   t h HM M   s y s te m   w er tr ain ed   o n   leg i b le,   r ea d a b le  T I MI T   co r p u s   w it h   s et  o f   4 8   p h o n e m es .     I   d iv id ed   th tr ain in g   p ar o f   T I MI T     ex p r ess io n s   o f   S A 1   an d   S A 2   f r o m   in d ep en d en p ar in to   th r ee   d is j o in p ar   ex clu d in g   th e   ex p r ess io n s     o f   5 0 0 ,   1 0 0   an d   3 0 9 3   r esp ec tiv el y .   T h s ec o n d   an d   th ir d   s ets  o f   u tter a n ce s   1 0 0   an d   3 0 9 6   re s p ec tiv el y   f o r m ed   A S R   r ec o g n itio n   s et  a n d     ASR   tr ai n i n g   s et  f o r   th f o r ce d   alig n m en t a lg o r ith m .   A lt h o u g h   T I MI T   w as  o r ig in al l y   s a m p led   at  1 6   k Hz,     co n f ir m ed   th d is cr i m i n atio n   m o d el  b y   tr a i n i n g   th 8   k Hz  T I MI T .   T h is   w as  d o n to   ev alu ate  th al g o r ith m 's  p er f o r m a n ce   at  m o r r ea lis tic  s a m p li n g   r ate   an d   to   u s th tr ain ed   A S R   m o d e o n   s u b - s a m p led   T I MI T   o n   an o th er   8   k Hz  s am p led   co r p u s .   T h e   ex p er i m e n tal  r e s u l ts   o f   AS R   a r s h o w n   i n   T ab le  2 .   I ca n   b e   s ee n   t h at  th e   r es u lts   o f   T I MI T   s u b - s a m p les   at  8   k Hz  s ti ll e x ce ed   t h r esu l ts   r e p o r ted   b y   B r u g n ar et  al.   [ 2 0 ]   an d   Ho s o m   [ 2 1 ] .       T ab le   2 .   P r ed ef in ed   to ler an ce s   o f   T I MI T   co r p u s ,   th e f f icien c y   o f   p h o n e m e s   p o s itio n ed   co r r ec tl y     L e n g t h   o f   S p e e c h   C o r p u s     L e ss t h a n   1 0 ms   L e ss t h a n   2 0 ms   L e ss t h a n   3 0 ms   L e ss t h a n   3 0 ms     1 6 K H z   TI M I T   U t t e r a n c e s   D i scri m i n a t i v e   A l i g n me n t   7 6 . 5   9 0 . 7 7   9 6 . 4 4   9 9 . 2 3   B r u g n a r a   e t   a l .   ( 1 9 9 3 )   7 5 . 3   8 8 . 9   9 4 . 4   9 7 . 1   H o so m (2 0 0 2 )     9 2 . 6         8   K H z   TI M I T   U t t e r a n c e s   D i scri m i n a t i v e   A l i g n me n t   8 4 . 2 3   9 4 . 2 1   9 7 . 1 2   9 9 . 1     H TI M I T   C B 1   8 3 4   U t t e r a n c e s   D i scri m i n a t i v e   A l i g n me n t   7 2 . 5   8 9 . 6 8   9 5 . 8 9   9 7 . 4   -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 S pe a k e r   1 S pe a k e r   2 La r ge   M a r gi   A pp r oa c f or  Le a r ni ng   A l i gn m e nt -4 -3 -2 -1 0 1 2 3 4 -4 -3 -2 -1 0 1 2 3 4 Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t 2 0 1 9   :   2 4 4 3   -   2450   2450   6.   CO NCLU SI O N   ASR   i s   th u s o f   m ac h i n t o   id en tify   p er s o n   f r o m   t h s p o k en   w o r d .   T h A S R   s y s te m   ca n   b e   u s ed   i n   t w o   m o d es  t h at   r ec o g n ize   th id en tit y   r eq u ir ed   b y   a   p ar ticu lar   p er s o n   o r   v er if ier .   B asic  k n o w led g o f   s p ea k er   r ec o g n it io n   is   co v er ed ,   s i m p le  f u n ctio n s   an d   m ea s u r es  f o r   s p ea k er   r ec o g n i t io n   ar p r o p o s ed   an d   co m p ar ed   w it h   co n v e n tio n al  r ec o g n itio n   u s i n g   s p ea k er   r ec o g n i tio n   cr iter ia.     P r o p o s al  o f   th A S R   s y s te m   to   d is tin g u is h   s p ea k er s   u s e s   h i g h - lev el   s p ea k er - s p ec if ic  f ea tu r es.  T h is   m ea s u r e m e n t   ca n   b in ter p r eted   as  t h e   s h ap o f   in f o r m a tio n   t h eo r y   m ea s u r e m e n t   b y   d is cr i m in a tio n   ali g n m e n t.    I n   f ac t,  t h e x p er im e n t s   r ep o r ted   ab o v s h o w   t h at  d is cr i m i n ati v tr ain in g   r eq u ir es  les s   s a m p l tr ain in g   th a n   s p ee ch - to - p h o n alig n m en b ased   o n   HM p r o ce s s es.   T h p er f o r m a n ce   o f   s p ea k er   r ec o g n iti o n   ac cu r ac y   o f   t h A S R   s y s t e m   p r o p o s ed   in   th is   p ap er   is   9 9 . 2 3 an d   9 9 . 1 f o r   < 40       of   T I MI T   u tter an ce s   r es p ec tiv el y . P r o p o s ed   A S R   s y s t e m   s h o ws   1 . 9 9 %,  2 . 1 0 %,    2. 1 6   an d     2 . 1 9   o f   im p r o v e m e n t s   co m p ar to   tr ad itio n al  ASR   s y s te m     f o r   < 10   ms ,   < 20   ms < 30   ms   an d   < 40   ms   o f   1 6 KHz   T I MI T   u tter an ce s T h p r o p o s ed   A SR   s y s te m   i n tr o d u ce d   h er is   ac tu all y   r ea lized   w i th   M A T L A B   o n   m o d er ate  p er s o n al  co m p u ter .       RE F E R E NC E S   [1 ]   S . S in g h ,   F o re n sic   a n d   A u to m a t ic  S p e a k e Re c o g n it io n   S y ste m , ”  In ter n a ti o n a J o u rn a o A p p li e d   En g in e e rin g   Res e a rc h   S S 0 9 7 3 - 4 5 6 2   Vo l u m e   8 ,   Nu m b e 5 ,   2 0 1 8 ,    p p .   2 8 0 4 - 2 8 1 1 ,   2 0 1 8 .   [2 ]   S . S in g h ,   Ev a lu a ti o n   o f   S p a rsif ic a ti o n   a lg o rit h m   a n d   Its  A p p li c a ti o n   i n   S p e a k e Re c o g n it io n   S y ste m , ”  J o u rn a o f   Ap p li e d   E n g i n e e rin g   Res e a rc h ,   I S S N:   0 9 7 3 - 4 5 6 2 ,   Vo lu m e   1 3 ,   N u m b e 1 7 ,   p p .   1 3 0 1 5 - 1 3 0 2 1 ,   2 0 1 8 .   [3 ]   S . S in g h ,   S u p p o rt  V e c to M a c h i n e   Ba se d   A p p ro a c h e F o Re a T i m e   A u to m a ti c   S p e a k e r   Re c o g n it io n   S y ste m ,     In ter n a t io n a l   J o u r n a l   o f   Ap p li e d   En g i n e e rin g   Res e a rc h IS S N:  0 9 7 3 - 4 5 6 2 ,   V o lu m e   1 3 ,   N u m b e 1 0 ,   p p .   8 5 6 1 - 8 5 6 7 2 0 1 8 .   [4 ]   S . S in g h   T h e   Ro le  o f   S p e e c h   T e c h n o l o g y   in   Bio m e tri c s,  F o re n sic a n d   M a n - M a c h i n e   In terf a c e , ”  In ter n a t io n a l   J o u rn a o El e c trica a n d   C o mp u t e r E n g i n e e rin g ,   2 0 1 8 .   [5 ]   S . S in g h ,   A ss a f   M a n so u H,  A b h a y   Ku m a a n d   Niti n   A g ra w a S p e a k e S p e c if ic   P h o n e   S e q u e n c e   a n d   S u p p o r t   V e c to M a c h i n e s   T e lep h o n ic  Ba se d   S p e a k e Re c o g n it io n   S y ste m , ”  In ter n a t io n a J o u rn a o A p p l i e d   En g in e e rin g   Res e a rc h ,   IS S 0 9 7 3 - 4 5 6 2   Vo lu m e   1 2 ,   Nu m b e 1 9 ,   p p .   8 0 2 6 - 8 0 3 3 ,     2 0 1 7 .   [6 ]   A .   Eri k s so n ,   T u to rial  o n   f o re n sic   sp e e c h   sc ien c e ,   in   Pro c .   Eu ro p e a n   Co n f.   S p e e c h   Co m mu n ica t io a n d   T e c h n o l o g y ,   L isb o n ,   P o rtu g a l,   p p .   4 0 - 8 0 ,   2 0 0 5 .   [7 ]   W a ib e l,   A . ,   Pro so d y   a n d   s p e e c h   re c o g n it i o n ,   S a n   M a teo :   M o rg a n   Ka u fm a n n   P u b li sh e rs,  1 9 8 8 .   [8 ]   S h rib e rg ,   E. ,   S to lck e ,   A . ,   Ha k k a n i - T u r,   D.,   &   T u r,   G ,   P ro so d y - b a s e d   a u to m a ti c   se g m e n tatio n   o f   sp e e c h   in to   se n te n c e s a n d   to p ics ,   S p e e c h   Co mm u n ica ti o n ,   3 2 ,   p p .   1 2 7 - 1 5 4   2 0 0 0 .   [9 ]   No o teb o o m ,   S ,   T h e   p ro so d y   o sp e e c h M e lo d y   a n d   rh y th m ,   In   T h e   h a n d b o o k   o f   p h o n e ti c   sc ien c e s.  Blac k w e ll   h a n d b o o k s in   li n g u isti c M a l d e n ,   Blac k w e ll   P u b li sh e rs,  v o l .   5   p p .   6 4 0 - 6 7 3 ,   1 9 9 7 .   [1 0 ]   Ha r t,   J.,   C o ll ier,  R . ,   &   Co h e n ,   A ,   A   p e rc e p tu a stu d y   o f   in to n a ti o n ,   Ca mb rid g e ,   UK: Ca mb ri d g e   U n ive rs it y   Pre ss ,   1 9 9 0 .   [1 1 ]   S h r ib e rg ,   E . ,   &   S t o lck e ,   A ,   D irec m o d e li n g   o f   p ro so d y A n   o v e rv ie w   o f   a p p li c a ti o n in   a u t o m a ti c   sp e e c h   p ro c e ss in g ,   In   S p e e c h   Pr o so d y ,   Na ra ,   Ja p a n ,   p p . 1 - 8 2 0 0 4 .   [1 2 ]   Ra y m o n d   W .   M .   Ng   ,   T a n   Lee   Ch e u n g - Ch L e u n g   Bi n   M a   H a izh o u   L i ,   S p o k e n   L a n g u a g e   Re c o g n it io n   W it h   P r o so d ic  F e a tu re s ,   IEE T r a n sa c ti o n o n   A u d io ,   S p e e c h ,   a n d   L a n g u a g e   Pr o c e ss in g ,   V o l.   21 ,   Iss u e .   9 ,   pp - 1 8 4 1 - 1 8 5 3 ,   S e p t.   2 0 1 3 .   [1 3 ]   El   Ay a d i,   M . ,   Ka m e l,   M .   S . ,   &   Ka rra y ,   F ,   S u rv e y   o n   sp e e c h   e m o ti o n   re c o g n it i o n F e a tu re s,  c las si f i c a ti o n   sc h e m e s,   a n d   d a ta b a se s,”   Pa tt e rn   Rec o g n it i o n v o l.   4 4 ( 3 ) ,   p p .   5 7 2 - 5 8 7 2 0 1 1 .   [1 4 ]   Bu ss o ,   C. ,   L e e ,   S . ,   &   Na ra y a n a n ,   S ,     A n a l y sis o f   e m o ti o n a ll y   sa li e n a sp e c ts o f   f u n d a m e n tal  f re q u e n c y   f o e m o ti o n   d e tec ti o n ,   I EE T r a n s a c ti o n s o n   Au d io ,   S p e e c h ,   a n d   L a n g u a g e   Pr o c e ss in g v o l .   1 7 (4 ) ,   p p .   5 8 2 - 5 9 6 ,   2 0 0 9 .   [1 5 ]   L u e n g o ,   I. ,   Na v a s,  E. ,   He r n á e z ,   I. ,   &   S á n c h e z ,   A u to m a ti c   e m o ti o n   re c o g n it io n   u sin g   p ro s o d i c   p a ra m e t e rs ,”   In   Pro c e e d i n g o I n ter sp e e c h p p .   4 9 3 - 4 9 6 ,   2 0 0 5 .   [1 6 ]   Ili o u ,   T . ,   &   A n a g n o sto p o u lo s,   C. - N,  S tatisti c a e v a lu a ti o n   o f   sp e e c h   fe a tu re f o e m o ti o n   re c o g n it io n ,   In   Pro c e e d in g o F o u rth   In te rn a ti o n a C o n fer e n c e   o n   Dig i ta T e lec o mm u n ica t io n ( ICDT’0 9 ) ,   v o l .   1 p p .   1 2 1 - 1 2 6 2 0 0 9 .   [1 7 ]   L u e n g o ,   I. ,   Ev a ,   N.,   &   He rn á e z ,   I ,   F e a tu re   a n a ly sis  a n d   e v a lu a ti o n   f o a u to m a ti c   e m o ti o n   i d e n ti f ica ti o n   in   sp e e c h ,   IEE T ra n sa c ti o n o n   M u lt ime d i a ,   v o l.   1 2 (6 ) 4 9 0 - 5 01 2 0 1 0 .   [1 8 ]   Ha n ,   K.,   Do n g ,   Y.,   &   T a sh e v ,   I,   S p e e c h   e m o ti o n   re c o g n it io n   u sin g   d e e p   n e u ra n e tw o rk   a n d   e x tre m e   le a rn in g   m a c h in e ,   In   Pro c e e d i n g o I n ter sp e e c h p p .   2 2 3 - 2 2 7 ,   2 0 1 4 .   [1 9 ]   Zh e n g ,   N.,   L e e ,   T . ,   &   Ch in g ,   P . - C,     In teg ra ti o n   o f   c o m p le m e n tar y   a c o u stic  f e a t u re f o sp e a k e re c o g n it io n ,     IEE S i g n a Pro c e ss in g   L e tt e rs ,   v o l.   1 4 (3 ),   p p . 1 8 1 - 8 4 ,   2 0 0 7 .   [2 0 ]   F .   Bru g n a ra ,   D.  F a lav i g n a ,   a n d   M .   Om o lo g o ,   A u to m a ti c   se g m e n tatio n   a n d   lab e li n g   o f   sp e e c h   b a se d   o n   h id d e n   M a rk o v   m o d e ls,”  S p e e c h   C o mm u n . ,   v o l .   1 2 ,   p p .   3 5 7 - 3 7 0 ,   1 9 9 3 .   [2 1 ]   J. - P .   Ho so m ,   A u to m a ti c   p h o n e m e   a li g n m e n b a se d   o n   a c o u stic - p h o n e ti c   m o d e li n g ,   in   Pro c .   7 th   I n t .   Co n f .   S p o k e n   L a n g u a g e   Pr o c e ss in g ,   p p .   3 5 7 - 3 6 0 ,   2 0 0 2 .       Evaluation Warning : The document was created with Spire.PDF for Python.