I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   6 ,   No .   6 Decem b er   201 6 ,   p p .   276 6 ~ 2 7 7 2   I SS N:  2088 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v 6i 6 . 9 8 4 4           2766       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I JE C E   O Usa ble Spee c h Det ection  by  Li nea r Multi - Sca le  Deco m po sitio n f o r Spea k er  Identi fi ca tion       Wa j di G heza iel 1 ,   A m el  B en  Sli m a ne 2 ,   E zz e din B en  B ra iek 3   1 CERE P -   ENS I T ,   Un iv e rsity   of   Tu n is,   T u n is,   T u n isia   2 ,3 ENS I,   U n iv e rsity   of   M a n o u b a ,   M a n o u b a ,   T u n isia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Dec   3 1 ,   2 0 1 5   R ev i s ed   Ma r   1 5 ,   2 0 1 6   A cc ep ted   Mar   29 ,   2 0 1 6     Us a b le  sp e e c h   is  a   n o v e c o n c e p o f   p ro c e ss in g   c o - c h a n n e sp e e c h   d a ta.  It   is   p ro p o se d   to   e x trac m in im a ll y   c o rru p ted   sp e e c h   t h a is  c o n sid e re d   u se f u f o v a rio u sp e e c h   p ro c e ss in g   s y ste m s.  In   th is  p a p e r,   w e   a re   in tere s ted   f o c o - c h a n n e sp e a k e id e n ti f ica ti o n   (S ID).  W e   e m p lo y   a   n e w   p ro p o se d   u sa b le  sp e e c h   e x trac ti o n   m e th o d   b a se d   o n   th e   p it c h   in f o rm a ti o n   o b tai n e d   f ro m   li n e a m u lt i - sc a le  d e c o m p o siti o n   b y   d isc re te  wa v e l e tran sf o r m .   T h e   id e a   is  to   re tain   t h e   sp e e c h   se g m e n ts  th a h a v e   o n ly   o n e   p it c h   d e tec ted   a n d   re m o v e   th e   o th e rs.  De tec ted   Us a b le  sp e e c h   wa u se d   a in p u f o sp e a k e r   id e n ti f ica ti o n   sy ste m .   T h e   s y ste m   is  e v a lu a ted   o n   c o - c h a n n e s p e e c h   a n d   re su lt sh o w   a   sig n i f ic a n i m p ro v e m e n a c ro ss   v a rio u t a rg e to   In terf e re r   Ra ti o   (T IR)  f o sp e a k e id e n ti f ica ti o n   sy ste m .   K ey w o r d :   C o - c h an n el  s p ee c h   Dis cr ete  w av ele t tr an s f o r m   Mu lti - s ca le  d ec o m p o s itio n   Sp ea k er   id en ti f icatio n   Usab le  s p ee ch   Co p y rig h ©   2 0 1 6   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   W ajd i G h ez aiel ,   C E R E P -   E NSI T ,     Un i v er s it y   o f   T u n i s ,     T u n is ,   T u n is ia.   E m ail:  w aj d i.g h ez aie l@ g m ail. co m       1.   I NT RO D UCT I O N     Sp ee ch   ca n   b e   d is to r t ed   b y   m an y   k i n d s   o f   i n ter f er en ce s .   I n ter f er in g   s i g n al  ca n   b s tatio n ar y   o r   n o   s tatio n ar y   s i g n al.   Statio n ar y   n o is ca n   b d ea lt  w it h   d en o is i n g   a n d   n o i s r ed u ctio n   tec h n i q u es;  w h er ea s   n o n   s tatio n ar y   n o i s is   ca u s ed   b y   an o th er   s p e ec h   f r o m   d i f f er e n s p ea k er .   Su c h   i n ter f er en ce   is   f r eq u en a n d   t h e   co r r u p ted   s p ee ch   is   k n o w n   a s   co - ch a n n e s p ee ch   [ 1 ] .   M a n y   s p ee c h   p r o ce s s in g   tech n iq u es  ar p lag u ed   f o r   s u c h   in ter f er en ce s .   T r a d itio n al  ap p r o ac h   to   co - ch an n e s p ee ch   is   to   atte m p to   ex tr ac th s p ee ch   o f   th e   s p ea k er   o f   in ter est  ( tar g et  s p ee ch )   f r o m   o th er   ( in ter f er in g )   s p ee ch .     Usab le   s p ee ch   ex tr ac tio n   is   n o v el   co n ce p o f   p r o ce s s in g   d e g r ad ed   s p ee ch   d ata.   T h id ea   o f   u s ab le  s p ee ch   i s   to   id en ti f y   a n d   to   ex tr ac p o r tio n s   o f   d eg r ad ed   s p ee ch   th at  ar co n s id er ed   u s e f u l f o r   v ar io u s   s p e ec h   p r o ce s s in g   s y s te m s .     Sp ea k er   id en ti f icatio n   s y s te m   [2 - 4 ]   n ee d s   p o r tio n s   o f   s p ee ch   th at  co n tai n   s p ea k er   ch ar ac ter is tics ,   w h ic h   a r u n iq u to   th in d i v id u al  s p ea k er s ,   class if iab le  an d   lo n g   en o u g h   f o r   th s y s te m s   to   m a k t h d ec is io n   [ 1 ] .   T h ese  p o r tio n s   o f   s p ee ch   ar ter m ed   as  u s ab le  s p ee ch   an d   d ef in ed   as  co n s ec u ti v f r a m e s   o f   s p ee ch   th a ar m i n i m a ll y   co r r u p ted   b y   in ter f er i n g   s p ee ch .   Du to   th n at u r o f   h u m a n   v o ice,   s p ee ch   u tter an ce   co n tai n s   v o iced   p ar ts ,   u n v o iced   p ar ts   an d   s ile n ce af ter   m i x i n g   th e   t w o   s p ee c h   s ig n al s ,   t h er ar s eg m e n ts   o f   t h co - c h an n el  s p ee ch   th at  co n tai n   o n l y   o n s p ea k er s   v o iced   p ar o r   o n s p ea k er s   v o iced   p ar t   p lu s   an o t h er   s p ea k er s   u n v o ic ed   p ar t,  th latter   u s u a ll y   h a v i n g   m u ch   lo w er   e n er g y .   Yan to r n o   [ 5 ]   p e r f o r m ed   a   s tu d y   o n   co - c h an n el  s p ee c h   a n d   co n clu d ed   th at  t h T ar g et - to - I n ter f er er   R atio   ( T I R )   w a s   g o o d   m ea s u r to   q u an ti f y   u s ab ilit y   f o r   s p ea k er   id en ti f i ca tio n .   U s ab le  s eg m e n t   ex tr ac tio n   i s   b ased   o n   p o w e r   r atio   o f   th tar g et   s p ee ch   to   th in ter f er in g   s p ee ch .   T h is   r atio   is   ex p r ess ed   as  T I R   ( T a r g et  to   I n ter f er er   R atio ,   in   d B ) .   T h r atio   ca n   b ex p r es s ed   f o r   e n tire   u tt er an ce s   o r   i n d iv id u a f r a m e s   o f   s p ee c h .   Fo r   u s ab ilit y ,   p r ev io u s   e x p er i m e n tatio n   h as  s h o w n   t h at  f o r   f r a m es  ab o v 2 0   d B   T I R   is   co n s id er ed   u s ab le,   a n d   th at   lo w er   2 0   d B   T I R   is   co n s id er ed   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2088 - 8708     On   Usa b le  S p ee ch   Dete ctio n   b Lin ea r   Mu lti - S ca le  Dec o mp o s itio n   fo r   S I D   ( W a jd i G h eza i el )   2767   u n u s ab le  s e g m e n t s .   T h co n c ep o f   u s ab le”  s e g m en t s   r eli es  o n   t h f ac t h at  f o r   an y   g i v en   ti m f r a m e,   t h e   en er g y   o f   ea ch   s p ea k er   m a y   b d if f er e n t.  T h u s ab le  s p ee ch   co n ce p tak e s   ad v a n ta g o f   t h s it u atio n   w h e n   th en er g y   o f   th p r i m ar y   s p ea k er   is   m u c h   g r ea ter   th a n   t h e n er g y   o f   t h e   in ter f er i n g   s p ea k er   f o r   g i v en   f r a m e.   D if f er e n cr iter ia  ar d ev elo p ed   to   ex tr ac u s ab le  s p ee ch   in   co - c h an n el  s p ee ch   [ 6 - 7 ] .   C r iter ia  s u ch   f r a m e - le v el  T I R   o r   s p ec tr al   au to co r r elatio n   r atio .   T h ese  s t u d ies  f i n d   t h at  v o iced   s e g m en t s   co n tain   m o s o f   t h e   in f o r m atio n   f o r   SID ,   an d   ac co r d in g   to   th ese  cr iter ia,   s ig n if ican a m o u n o f   co - c h an n el  s p ee ch   ca n   b e   co n s id er ed   u s ab le  f o r   SID .   Fra m T I R s   ar e   ea s il y   ca lcu late d   w ith   p r e m i x i n g   s p ee c h   u tte r an ce s ,   a n d   u s ab le   s p ee ch   e x tr ac ted   b ased   o n   T I R   th r esh o ld   r etai n s   f r a m e s   w h er tar g e s p ea k er   is   m u ch   s tr o n g er   i n   ter m s   o f   o v er all  en er g y   th a n   th o t h er .   Sp ec tr al  au to co r r elatio n   r atio   esti m ate s   th r atio   b et w ee n   d o m i n a n p ea k   an d   v alle y   in   a u to co r r elatio n   o f   a   s p ec tr al  f r a m e.   T h is   r at io   is   u s ed   to   d eter m i n w h eth er   f r a m i s   u s ab le,   m ea n in g   t h s p ec tr u m   is   w e ll  s tr u c tu r ed   ( s i n g le - s p ea k er   s p ee ch ) ,   o r   n o t.  T h is   ap p r o a ch   is   s i m p le  an d   ef f ec tiv e   an d   s h o w s   s u b s tan tial  i m p r o v e m e n i n   SID   p er f o r m a n ce .   He n ce ,   n u m b er   o f   m et h o d s   f o r   u s ab le   s p ee ch   d etec tio n   w h ich   r ef er   t o   th T I R   h a v b ee n   d ev elo p e d   an d   s t u d ied   u n d er   co - c h an n el  co n d itio n   [ 8 ] [ 9 ] .   I n   th ese  m eth o d s ,   u s ab le  s p ee ch   f r a m e s   ar co m p o s ed   o f   v o iced   s p ee ch .   I n   [ 8 ] ,   th Sp ec tr al  A u to co r r elatio n   R atio   m et h o d   w a s   d ev elo p ed   to   d etec u s ab le  s p ee ch   s eg m en ts .   T h is   tak e s   ad v an tag o f   th s tr u ctu r o f   v o iced   s p ee c h   i n   t h f r eq u e n c y   d o m ai n .   I n   [ 9 ] ,   t h P ea k   d if f er e n ce   a u to co r r elatio n   o f   w a v elet   tr an s f o r m   ( P DA W T )   m et h o d   is   ap p lied   in   o r d er   to   d etec p itch   in f o r m atio n   i n   u s ab le  s p ee ch .   T h is   m et h o d   ap p lies   au to co r r elatio n   o n   ap p r o x i m at io n   co m p o n e n o b tain ed   b y   f il ter in g   co - ch a n n el  s p ee c h   at  o n d is cr ete  w a v elet   tr an s f o r m   ( DW T )   s ca le.   T h ese  m et h o d s   s h o w   t h at  t h s p ea k er   id en ti f icatio n   s y s te m   ac h i ev es  ap p r o x i m a tel y   8 0 % o f   co r r ec t id en tif icatio n   w h e n   th o v er all  T I R   is   2 0   d B .     I n   o u r   p r ev io u s   w o r k   [ 1 0 - 11 ] ,   w h av d e v elo p ed   m u lt r eso lu tio n   d y ad ic  w a v elet  ( MRDW T )   m et h o d   to   d etec u s ab le  s p ee ch .   MR DW T   m et h o d   is   lin ea r   m u lti - s ca le  d ec o m p o s i tio n   w h ich   ap p lie s   d is c r ete   w a v elet  tr an s f o r m   ( D W T )   iter ativ el y   to   d etec p itch   p er io d icity .   W ar m o ti v ated   b y   d etec ti n g   p itc h   in f o r m atio n   i n   all  lo w er   f r eq u en c y   s u b - b an d s   o f   co - ch a n n el   s p ee ch .   I n   f ac t,  u s ab le  f r a m e s   ar ch ar ac ter ized   b y   p er io d icit y   f ea t u r es.  T h MRDW T   m et h o d   g iv es  g o o d   h its   p er ce n ta g e T h d etec ted   u s ab le  s e g m e n t s   ar s ep ar ated   in   ti m an d   n ee d   to   b o r g an ized   in to   s p ea k er   s tr ea m s .   R ec en tl y ,   w h a v p r o p o s ed   in   [ 12 ]   a   sp ea k er   as s ig n m e n s y s te m   th at  o r g an ize s   u s ab le  s p ee c h   s e g m en ts   u n d er   co - ch a n n el  co n d i tio n s .   T h en ,   u s ab le   s eg m e n ts   ar a s s i g n ed   to   t wo   s p ea k er   g r o u p s ,   co r r esp o n d in g   to   th e   t w o   s p ea k er s   i n   t h m i x t u r e.   Fin a ll y ,   s p ea k er s   ar id en ti f ied   u s in g   t h ass ig n ed   s eg m e n t s .     I n   th i s   p ap er ,   w p r o p o s to   e v alu a te  co - c h an n el  s p ea k er   id en ti f icatio n   s y s te m .   MR DW T   is   u s ed   f o r   co - ch a n n e s p ee ch   p r o ce s s i n g .   E v al u atio n   is   p er f o r m ed   o n   T I MI T   d atab ase.   T h is   p ap er   is   o r g an ized   as   f o llo w s .   I n   s ec tio n   2 ,   th li n ea r   m u lti - s ca le   m et h o d   is   p r esen ted .   I n   s ec tio n   3 ,   th co - ch a n n e l   s p ea k er   id en ti f icatio n   s y s te m   i s   p r esen ted .   T h ex p er im e n tal  r es u lt s   o f   th p r o p o s ed   alg o r ith m   i n   th i s   p ap er   an d   th tar g et  s p ea k er   id en t if icatio n   ac cu r ac y   ar also   p r esen ted   i n   s ec tio n   4 .   Fin all y ,   o u r   w o r k   o f   t h is   p ap er   is   s u m m ar ized   in   t h last   s ec tio n .         2.   L I N E AR  M UL T - SCA L E   D E CO M P O SI T I O F O US AB L E   SP E E CH   D E T E C T I O N   Usab le  f r a m es   ar c h ar ac ter ized   b y   p er io d icit y   f ea t u r es.  T h ese  f ea t u r es  s h o u ld   b lo ca t ed   in   lo w - f r eq u en c y   b a n d   th a i n clu d es   th p itc h   f r eq u e n c y .   L i n ea r   Mu lti - s ca le  d ec o m p o s itio n   b ased   o n   DW T   is   ap p lied   iter ativ el y   in   o r d er   to   d eter m in t h s u i tab le  b an d   f o r   p e r io d icity   d etec tio n .   I n   th i s   b an d ,   p er io d icity   f ea t u r es a r n o m u c h   d is t u r b ed   b y   i n ter f er er   s p ee ch   i n   ca s o f   u s ab le  s e g m en t s .   I n   ca s o f   u n u s ab le  f r a m es,  i t   is   n o p o s s ib le   to   d etec p er io d ici t y   i n   all  lo w er   s u b - b an d s .   A t   ea ch   iter atio n ,   a u to co r r elatio n   i s   ap p lied   to   t h ap p r o x im a tio n   co ef f icie n t s   in   o r d er   t o   d etec p e r io d icity   [ 1 1 ] .   T h r ee   d o m in a ted   lo ca m ax i m ar d eter m in ed   f r o m   t h a u to co r r elatio n   s i g n al  w ith   p ea k - p ick in g   al g o r it h m   w h ich   u s es  t h r es h o ld   ca lcu lated   f r o m   lo ca m ax i m a m p lit u d es.  A   d if f er en ce   o f   au to co r r elatio n   lag   b et w ee n   th f ir s a n d   s ec o n d   m a x i m u m   a n d   b et w ee n   th s ec o n d   a n d   th ir d   m a x i m u m   is   d eter m i n ed .   I f   t h is   d i f f er en ce   i s   les s   th a n   t h th r e s h o ld ,   p er io d icity   is   d etec ted   an d   co - c h an n el   s p ee c h   s e g m e n i s   cla s s i f ied   a s   u s a b le.   T h is   th r e s h o ld   i s   e m p ir ica ll y   f i x ed   ac co r d in g   to   th b est   ev a lu at io n   r es u lt s .   T h o p tim u m   t h r es h o ld   v al u o f   8   s a m p les  is   c h o s e n   at   1 6   k Hz  s a m p li n f r eq u en c y .   I f   at  t h i s   iter atio n ,   p er io d icity   is   n o d etec ted ,   DW T   is   ap p lied   to   a p p r o x im ati o n   s ig n al  i n   o r d er   to   d etec h id d en   p er io d icit y   f ea t u r i n   f in er   b a n d   f r eq u en c y .   Fo r   u n u s ab le  f r a m es,  it  i s   n o p o s s ib le  to   d etec t   p er io d icity   i n   all   lo w er   s u b - b a n d s .   A   m a x i m u m   o f   4   iter atio n s   ar allo w ed .   T h is   li m it  is   f i x ed   b ased   o n   p itch   b an d .   T h lo w e s t b an d   s h o u ld   co r r esp o n d   to   p itch   b an d .   Fig u r 1   co r r esp o n d s   to   u s ab le  f r a m f o r   m ale - m a le  co - c h an n el  s p ee c h .   I n   t h is   ca s e,   p er io d icity   i s   d etec ted   o n l y   at  s ca le   3 .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E   Vo l.  6 ,   No .   6 Decem b er   201 6   : 2 7 6 6     2 7 7 2   2768       Fig u r 1 .   An al y s is   o f   Usab le   Sp ee ch   Fra m f o r   Ma le - Ma le   Co - C h a n n e Sp ee ch   U p   to   Sc a le  3       3.   CO - CH ANNE L   SPEAK E I DE N T I F I CA T I O S YST E M   I n   o r d er   to   id en tify   t h tar g et  an d   th i n ter f er er   s p ea k er s ,   th d etec ted   u s ab le  s eg m e n ts   ar o r g an ized   in to   t w o   s p ea k er   s tr ea m s   b y   s p ea k er   ass i g n m en s y s te m   [ 1 2 ] .   T h s p ea k er   ass ig n m en s y s te m   o r g an ize s   u s ab le  s p ee ch   s e g m e n ts   u n d er   co - ch an n el  co n d itio n s .   I h as   ex ten d ed   p r o b ab ilis tic  f r a m e w o r k   o f   tr ad itio n a SID   to   co - ch an n el  s p ee ch .   I u s es  ex h a u s ti v s ea r ch   al g o r ith m   to   m a x i m ize  t h p o s ter io r   p r o b a b ilit y   in   g r o u p in g   u s ab le   s p ee ch .   T h en ,   u s ab le  s e g m en t s   ar a s s i g n ed   to   t w o   s p ea k er   g r o u p s ,   co r r es p o n d in g   to   t h t w o   s p ea k er s   i n   t h m i x t u r e.   T h t w o   s p ea k er   s tr ea m s   ar u s e d   as  in p u f o r   b aseli n e   s p e ak er   id en ti f icat io n   s y s te m .     3 . 1 .   Sp ea k er   As s ig ne m e nt   I n   s p ea k er   id en ti f icat io n   s y s te m ,   d is cr i m in at io n   b et w ee n   s p ea k er s   is   b ased   o n   p o s ter io r   p r o b ab ilit y .   T h g o al  i s   to   f in d   t h s p ea k er   m o d el  r ef er en ce   i n   th e   s et  o f   s p ea k er   m o d els  Λ={ λ 1 , λ 2 , …,   λ k },   th a t   m ax i m izes  t h p o s ter io r   p r o b ab ilit y   f o r   an   o b s er v at i o n   s e q u en ce   O= {o 1 , o 2 , …, o M}   [ 2 ] .   C ep s tr al  f ea t u r es,   s u c h   as  m el - f r eq u en c y   ce p s tr al  co ef f icie n ts   ( MF C C s ) ,   ar u s ed   as   o b s er v atio n s   f o r   s p ee ch   s ig n al s .   T h g o al   in   co - c h a n n el  at te m p t s   to   f in d   t w o   s p ea k er   m o d el s   th at  m a x i m ize  t h p o s ter io r   p r o b a b ilit y   f o r   t h e   o b s er v atio n s .   I n   [ 1 2 ] ,   w h a v p r o p o s ed   a   s p ea k er   ass i g n m en s y s te m   th at  o r g a n izes  u s ab le  s p ee ch   s eg m e n ts   u n d er   co - c h an n el  co n d itio n s .   W h av ex te n d ed   p r o b ab ili s tic  f r a m e w o r k   o f   tr ad itio n al   SID   to   co - ch an n el   s p ee ch .   Fo r   co - ch an n el  m i x tu r e,   o u r   u s ab le  s p ee ch   ex t r ac tio n   m et h o d   ex tr ac ts   c o n s ec u tiv s p ee ch   s eg m e n ts ,   X=   {S 1 ,S 2 , …, S i , …, S N }.     Usab le  s e g m en ts   ar e   o r g an ize d   in to   t w o   s p ea k er   s tr ea m s   b ec au s e   in   co - c h an n el   s p ee ch   o n s p ea k er   ca n   d o m i n ate  in   s o m e   p o r tio n s   a n d   b d o m i n ated   i n   o t h er   p o r tio n s .   Fo r   e x a m p le,   p o s s ib le  s e g m en ass i g n m e n m a y   lo o k   li k e   0 1 0 1 1 2 i N S , S , , S , , S  ,   w h er s u p er s cr ip ts ,   0   an d   1 ,   d o   n o r e p r esen th s p ea k e r   id en titi e s   b u o n l y   i n d icate   t h a th s eg m e n t s   m ar k ed   w it h   t h s a m lab el  ar f r o m   th s a m s p ea k er .   I n   [ 1 2 ] ,   w h av d e m o n s tr ated   th at  p r o b ab ilit y   p o s ter io r   ca n   b r e - w r itten   f o r   co - ch a n n e l sp ee ch   as :     01 01 P X , | λ , λ P S | λ P S | λ j i I I I i I j I I S X S X X       T h p r o b a b ilit y   o f   h a v i n g   a   s eg m e n f r o m   p r e - tr ain ed   s p ea k er   m o d el  λ   i s   t h p r o d u ct  o f   lik eli h o o d s   o f   th at  s p ea k er   m o d el  g en er ati n g   ea c h   in d i v id u a l   o b s er v atio n   x   o f   t h s e g m en t .     Sirig o s   e al  [ 1 3 ]   an d   L o v e k i n   et  al   [ 1 ]   h av e   s h o w n   th at   v o iced   s p ee ch   p la y s   a   d o m i n an r o le  i n   s p ea k er   r ec o g n itio n .   T h id ea   o f   u s i n g   o n l y   t h v o iced   p ar o f   s p ee ch   s i g n al  i s   b ased   o n   th f ac t h at  v o iced   s p ee ch   s eg m e n co n tai n   th m o s s i g n i f ican s p ea k er   id en ti f icatio n   as  o p p o s ed   t o   o th er   s p ee ch   s eg m en t.   0 50 100 150 200 250 300 350 400 450 500 - 0 . 5 0 0 . 5 C o - c h a n n e l   s p e e c h 0 50 100 150 200 250 300 350 400 450 500 -1 0 1 D W T   a p p r o x i m a t i o n   a t   s c a l e   1 0 50 100 150 200 250 300 350 400 - 0 . 5 0 0 . 5 D W T   a p p r o x i m a t i o n   a t   s c a l e   3 0 100 200 300 400 500 600 -5 0 5 A u t o c o r r e l a t i o n   o f   a p p r o x i m a t i o n   a t   s c a l e   3 l a g 0 50 100 150 200 250 300 350 400 450 500 - 0 . 5 0 0 . 5 D W T   a p p r o x i m a t i o n   a t   s c a l e   2 Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2088 - 8708     On   Usa b le  S p ee ch   Dete ctio n   b Lin ea r   Mu lti - S ca le  Dec o mp o s itio n   fo r   S I D   ( W a jd i G h eza i el )   2769   W h en   v o iced   o n l y   s e g m e n ts   w er u s ed   f o r   tr ain in g   an d   tes tin g   ap p r o x i m atel y   8 0 s p ea k er   id en tit y   ac c u r ac y   w a s   ac h ie v ed .   T h er ef o r e,   w p r o p o s to   u s v o iced   f r a m i n   tr ain i n g .     Ob s er v atio n s   ar ex t r ac ted   f r o m   v o ic ed   f r a m e   b y   MF C C s .   Sp ea k er s   m o d el s   ar f o r m ed   w it h   1 6 - m i x tu r e   GM M s .   W e m p lo y   ex h au s ti v s ea r c h   alg o r ith m   to   f i n d   co r r esp o n d en s p ea k er .   I n   i m p le m en ta tio n ,   th r ea co m p u tatio n   ti m i s   lo n g er .   I ca n   b f u r t h er   r ed u ce d   b y   s to r in g   all  th li k eli h o o d   s co r es  o f   s eg m en g i v e n   m o d el  in   t h m e m o r y   as  tab le  an d   lo o k in g   u p   s co r f r o m   t h ta b le  w h en   n ee d ed .     3 . 2 .   B a s eline  SI Sy s t e m   T h SID   is   p er f o r m ed   w ith   b aselin s y s te m   [ 2 - 3] .   Mo d elin g   is   a s s u r ed   b y   Ga u s s ia n   Mi x t u r Mo d el  ( GM M)   an d   esti m ated   t h r o u g h   t h E x p ec tatio n   Ma x i m izati o n   ( E M)   alg o r ith m   t h at  m a x i m izes   th lik e lih o o d   cr iter io n .   A   s et  o f   1 6   m ix t u r es  ar u s ed   f o r   s p ea k er   m o d el.   I n   o u r   ex p er i m e n t,  w u s th clas s ical   p ar am eter izat io n   b ased   o n   1 6   Me Fre q u e n c y   C ep s tr al  C o ef f ic ien t s   ( MF C C ) .   T h ese  co ef f ic ie n t s   ar e   co m p u ted   f r o m   th s p ee c h   s ig n a ev er y   1 0   m s   u s in g   ti m w in d o w   o f   2 5   m s .   E ac h   f ea t u r v ec to r   is   p r esen ted   b y   t h m id d le  w in d o w s   o f   e v er y   u t ter an ce .     Sp ea k er   m o d el  is   tr ain ed   u s i n g   th e   E alg o r ith m   w it h   th f ea t u r es  ca lc u lated   f r o m   t r ain in g   s a m p l e s .   I n   test in g   p h ase,   t h o r g a n ized   u s ab le  s p ee ch ,   w it h   s p ea k er   ass i g n m e n s y s te m ,   ar u s ed   as  test   s p ee ch   s a m p les  f o r   SID   s y s te m .   T h s a m f ea tu r es  ar d er iv ed   f r o m   t h e   test   s p ee ch   s a m p les  a n d   ar in p u to   ev er y   s p ea k er s   GM M.   T h s p ea k er   w i th   t h h i g h est   li k eli h o o d   s co r e   r ep r esen ts   th id e n ti f ied   s p ea k er .   Her e,   s p ea k er   id en tif icatio n   ex p er i m en t s   ar clo s e - s et  an d   tex t - i n d ep en d en t.       4.   E XP E R I M E NT   AND  R E SU L T   Sp ee ch   d ata  f r o m   t h T I MI T   d atab ase  w a s   u s ed   f o r   all  t h e   s i m u lat io n   e x p er i m e n ts .   T h s p ea k er   s et   is   co m p o s ed   o f   3 8   s p ea k er s   f r o m   t h D R 1 ”  d ialec r eg io n ,   1 4   o f   w h ich   ar f e m ale  an d   th r est  ar m ale.   Fo r   ea ch   p air   o f   s p ea k er   th T I R   is   ca lcu lated   as  th en er g y   r atio   o f   th tar g et  s p ee ch   o v er   th in ter f er e n ce   s p ee ch .   T h r ee   d if f er en s et s   o f   co - ch a n n e s p ee ch   ar co n s id er ed m ale - m ale,   f e m ale - f e m ale,   an d   m ale - f e m ale.   Sp ee ch   s ig n al s   ar s ca led   to   c r ea te  th m i x t u r es  at  d if f er en T I R s - 2 0   d B ,   - 1 0   d B ,   - 5   d B ,   0   d B ,   5   d B ,   1 0   d B   an d   2 0   d B .       4 . 1 .   M RDWT E v a lua t io n   T h T ar g et  to   I n ter f er er   R atio   T I R   m ea s u r i s   u s ed   to   lab el  v o iced   f r a m es  a s   u s ab le  o r   u n u s ab le.   Fo r   u s ab ilit y   d ec is io n ,   f r a m e s   th a t   h av ab o v e   2 0   d B   T I R   ar c o n s id er ed   as  u s ab le.   E v al u ati o n   is   b ased   o n   h it s   an d   f alse a lar m s   p er ce n tag e s .   T h p er f o r m a n ce   o f   p r o p o s ed   m et h o d   is   g iv e n   i n   T ab le  1 .   W co m p ar t h p r o p o s ed   m eth o d   w ith   r elate d   ap p r o ac h es  in   [ 9 ] .   On   av er ag t h MRDW T   m et h o d   d etec ts   at  least  9 5 . 7 6 o f   th u s ab le  s p ee ch   w it h   f alse  alar m   r ate  o f   2 9 . 6 5 %.    P ea k   d if f er en ce   au to co r r elatio n   o f   w a v elet  tr an s f o r m   ( P DA W T )   m et h o d   [ 9 ]   is   b ased   o n   p itch   i n f o r m atio n   d etec tio n .   T h is   m et h o d   ap p lies   DW T   o n ce   o n l y   to   co - c h a n n el  s p ee ch   to   d etec t   p itch   in f o r m atio n .   On   a v er ag th P DA W T   m et h o d   d etec ts   at  least  8 0 o f   th u s ab le  s p ee ch   w it h   f alse   alar m   r ate  o f   3 0 %.            T ab le  1 .   R esu lts   o f   P DA W T   an d   MRDW T   Met h o d   f o r   U s ab le  Sp ee ch   Dete ct io n       Co - c h a n n e l   P D A W T   M R D W T   H i t   F a l s e   a l a r m   H i t   F a l s e   a l a r m   F e mal e - F e mal e   8 2 . 0   3 2 . 3   9 3 . 0 2   3 2 . 3 7   M a l e - M a l e   8 0 . 5   3 0 . 6   9 8 . 4 6   2 8 . 9 3   M a l e - F e mal e                                               8 1 . 3   2 9 . 6   9 5 . 8 0   2 7 . 6 6   A v e r a g e   8 1 . 2   3 0 . 8   9 5 . 7 6   2 9 . 6 5       MRDW T   ac h iev m ax i m u m   o f   d etec ted   u s ab le  s p ee c h   co m p ar ed   to   P DA W T .   W c o n s id er   th e   ef f ec tiv e n e s s   o f   li n ea r   m u lt i - s ca le  d ec o m p o s itio n   b y   MR D W T   to   in cr ea s th p er ce n t o f   h it.     4 . 2 .   Sp ea k er   I dentif ica t io n E v a lua t io n   T o   d em o n s tr ate  t h u s e f u l n e s s   o f   o u r   p r o p o s ed   m e th o d ,   u s ab le  s p ee ch   is   a s s i g n ed   in to   s tr ea m s   b y   o u r   s p ea k er   ass ig n m e n s y s te m .   I f   th tar g et  s p ea k er   is   o f   in ter est,  th e n   th s p ee ch   s i g n al  f r o m   t h o th er   s p ea k er   is   co n s id er ed   n o is e.   W ch o o s th e   tar g et   s p ea k er   SID   as   o u r   e v alu a tio n   cr iter i o n .   Fi g u r 2   s h o ws   co m b i n atio n   o f   co - c h an n el  f e m ale - m ale.   W s h o w   th co r r esp o n d en t a s s ig n m e n t to   s p ea k er   1   an d   2   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E   Vo l.  6 ,   No .   6 Decem b er   201 6   : 2 7 6 6     2 7 7 2   2770       Fig u r 2 .   Sp ea k er   Ass i g n m e n t   f o r   Fe m ale - Ma le  C o - C h a n n el         Fig u r 3 .   P er f o r m a n ce   o f   th P r o p o s ed   Sp ea k er   I d en tif icati o n   u n d er   Co - C h a n n e l Co n d iti o n s   C o m p ar ed   w it h   Re lated   Me th o d s       Fig u r 3   g i v es  t h tar g e SID   co r r ec t   ac cu r ac y   f o r   o u r   p r o p o s ed   m eth o d   an d   r elate d   m eth o d .   I n   [ 1 4 ]   Sh ao   p r o p o s ed   r o b u s t p itc h   tr a ck in g   m e th o d   to   e x tr ac t   u s ab l s p ee ch   f o r   s p ea k er   id en ti f ica tio n   ta s k .   B ased   o n   p itch   i n f o r m atio n ,   th i s   m et h o d   ex tr ac ts   th u s ab le  s p ee ch   s eg m e n t s   t h at  co n s i s o f   o n l y   o n s p ea k er s   p itc h   an d   f ee d   th e m   in to   s p ea k er   id en tific atio n   s y s te m .   T ar g et  SID   co r r ec r ate  ar g iv en   b ef o r an d   af ter   u s ab le   s p ee ch   e x tr ac tio n .   I t s   clea r   f r o m   Fi g u r 3   th at   t h M R D W T   p e r f o r m s   s ig n i f ica n tl y   b e tter   th a n   M u lti - p itc h   tr ac k in g   an d   P DA W T   u s ab le   s p ee ch   m et h o d s .   MRDW T ,   Mu lti - p itc h   tr ac k i n g   a n d   P DA W T   u s ab le  s p ee ch   m et h o d s   an d   s p ea k er   as s ig n m e n s y s te m   i m p r o v e s   s i g n i f ican tl y   SID   p er f o r m an ce s   u n d er   c o - ch a n n el   s itu a tio n s T h ac cu r ac y   d eg r ad es  s h ar p l y   w h e n   T I R   d ec r ea s es  b ec au s th tar g e s p ee ch   is   in cr ea s in g l y   co r r u p ted .   T h f ir s o b s er v ati o n   f r o m   th e   f ig u r is   th at,   u n d er   co - ch an n el  s it u atio n s ,   t h e   tar g et  SID   co r r ec r ate  w ith   u s ab le  s p ee c h   d etec tio n   i s   b etter   t h an   th e   tar g et   SID   co r r ec r ate  w ith o u u s ab le  s p ee ch   d etec t io n .   T h p r o p o s ed   u s ab le  s p ee c h   d etec tio n   i m p r o v e s   s p ea k er   id en ti f icatio n   p er f o r m an ce .   Seco n d l y ,   th e   i m p r o v e m en t s   ar co n s is te n t   ac r o s s   all  T I R   lev el s .   P er f o r m a n ce   i m p r o v e m en t   in cr ea s e s   at  h i g h er   T I R s   b ec au s t h tar g e s p ea k er   d o m i n ates  th m i x t u r e.   Ho w ev e r ,   tar g et  s p ea k er   i s   d o m i n ated   b y   i n ter f er e n ce   at   lo w er   T I R s ,   r esu lti n g   in   lo w er   p er f o r m a n ce   af ter   u s ab le  s p ee ch   ex tr ac tio n .       5.   CO NCLU SI O N   I n   th i s   p ap er ,   w h a v e m p lo y ed   n e w   m et h o d   f o r   u s ab le   s p ee ch   ex tr ac tio n   to   i m p r o v s p ea k er   id en ti f icatio n   u n d er   co - ch a n n el  s p ee ch .   U s ab le  s p ee ch   is   e x tr ac ted   b ased   o n   p itc h   i n f o r m atio n   o b tain ed   b y   lin ea r   m u lti - s ca le  d ec o m p o s it i o n   MRDW T .   Ou r   u s ab le  s p ee ch   ex tr ac tio n   m et h o d   p r o d u ce s   s eg m e n ts   u s e f u Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2088 - 8708     On   Usa b le  S p ee ch   Dete ctio n   b Lin ea r   Mu lti - S ca le  Dec o mp o s itio n   fo r   S I D   ( W a jd i G h eza i el )   2771   f o r   co - ch a n n e SID   ac r o s s   v ar io u s   T I R   co n d itio n s .   MR D W T   ac h iev es  g o o d   p er ce n o f   u s ab le  s p ee c h   d etec tio n .   I n   co m p ar is o n   w it h   P DW A T   m e th o d ,   o u r   p r o p o s ed   m e th o d   ac h ie v es  g o o d   p er ce n o f   co r r ec t   d etec tio n .   W co n s id er   th ef f ec tiv e n e s s   o f   m u lt i - s ca le  d ec o m p o s itio n   to   ex tr ac u s a b le  s p ee ch .   Usab le   s eg m e n ts   ar a s s i g n ed   to   t w o   s p ea k er   g r o u p s ,   co r r esp o n d in g   to   t h t w o   s p ea k er s   i n   t h m i x tu r e.   Or g an ized   u s ab le  s p ee ch   ar u s ed   as  in p u to   s p ea k er   id en ti f icatio n   s y s te m .   W h a v s h o w n   th a th p r o p o s ed   u s ab le  s p ee ch   d etec tio n   ac h ie v es  g o o d   SID   p er f o r m a n ce   an d   it  p er f o r m s   s i g n i f ican tl y   b etter   th an   w it h o u u s ab le   s p ee ch   d etec tio n .   SID   p er f o r m an ce   d eg r ad es  w h en   T I R   d ec r ea s es  b ec au s e   th tar g et  s p ee ch   is   in cr ea s in g l y   co r r u p ted   b y   in ter f er er   s p ee ch .         RE F E R E NC E S   [1 ]   J.  L o v e k in ,   R. E.   Ya n to r n o ,   S .   Be n in c a sa ,   S .   W e n n d t,   M .   Hu g g in s,  De v e lo p in g   u s a b le  sp e e c h   c riter ia   fo sp e a k e r   id e n ti f ica ti o n ,   P ro c .   ICA S S P   2 0 0 1   P .   4 2 1 - 4 2 4 .   [2 ]   D.A .   Re y n o ld s.  Au to m a ti c   sp e a k e r re c o g n it i o n   u sin g   Gu a ss i a n   mix tu re   sp e a k e r mo d e l ,   L in c o l n   L a b .   J.,   1 9 95    V o l .     P .   1 7 3 - 1 9 2 .   [3 ]   Ka y o d e   F ra n c is  Ak in g b a d e ,   Ok o k o   M k p o u to   Um a n n a ,   Isia k a   A je w a l e   A li m i. V o ice - Ba se d   Do o A c c e ss   Co n tro l   S y st e m   Us in g   th e   M e F re q u e n c y   C e p stru m   Co e ff icie n ts  a n d   G a u ss ian   M ix tu re   M o d e l”.  I n ter n a ti o n a J o u r n a l   o f   El e c trica a n d   C o mp u t e r E n g in e e rin g   ( IJ ECE ),   V o l   4   N o   5 ,   2 0 1 4 .   [4 ]   Di  W u ,   Ch i n a ;   Jie   Ca o ;   H u a Jin   W a n g ,   S p e a k e Re c o g n it io n   Ba se d   o n   iv e c to a n d   Im p ro v e d   L o c a P re se rv in g   P r o jec ti o n .   T E L KOM NIKA  In d o n e sia n   J o u rn a o E lec trica En g i n e e rin g ,   Vo 1 2   N o   6 ,   2 0 1 4   p a g e s   4 2 9 9 - 4 3 0 5 .   [5 ]   R. E .   Ya n t o rn o ,   Co - c h a n n e sp e e c h   stu d y ,   n a re p o rt  f o su mm e re se a rc h   fa c u lt y   p ro g ra m ,   T e c h .   Re p . ,   A ir  F o rc e   Of c e   o f   S c ien ti c   Re se a rc h ,   S p e e c h   P ro c e ss in g   L a b ,   Ro m e   L a b s,  Ne w   Yo rk ,   1 9 9 9 .     [6 ]   Ya n to rn o ,   R . E,   M e th o d   f o im p ro v in g   sp e a k e id e n ti f ica ti o n   b y   d e t e r m in in g   u sa b le  s p e e c h ,   J.   ACOU S T .   S OC.   AM . ,   2 0 0 8     V o l .   1 2 4 ,   issu e   5 .   [7 ]   Bre tt       S m o len sk a n d   Ra v P .   Ra m a c h a n d ra n ,   Us a b le  S p e e c h   p r o c e ss in g a   f il terle s a p p ro a c h   in   th e   p re se n c e   o f   in terf e re n c e IEE Circ u it s a n d   S y ste ms   M a g a zin e ,   (2 0 1 1 ).   [8 ]   K.R.   Krish n a m a c h a ri,   R. E.   Ya n to rn o ,   D.S .   Be n in c a sa   a n d   S . J.  W e n n d t,   S p e c tral  a u to c o r re latio n   ra ti o   a s a u sa b il it y   m e a su re   o f   sp e e c h   se g m e n ts  u n d e c o c h a n n e l   c o n d it i o n s ,   IEE E   I n ter n a ti o n a l   S y mp o siu I n telli g e n S ig .   Pro c e ss .   a n d   Co mm   S y s . ,   (2 0 0 0 ).   [9 ]   Kiz h a n a th a m ,   R . E.   Ya n to rn o ,   P e a k   Diff e re n c e   Au to c o rr e la ti o n   o W a v e let  T ra n sfo rm   Al g o rit h m   B a se d   Us a b le  S p e e c h   M e a su re ,   7 th   W o rl d   M u lt i - c o n f e re n c e   o n   S y ste m ic,  C y b e rn e ti c s,  a n d   I n f o rm a ti c s,  2 0 0 3 .   [1 0 ]   W . G h e z a iel,   A . Be n   S li m a n e ,   E. Be n   Bra iek .   U sa b le  sp e e c h   d e te c ti o n   f o sp e a k e r   id e n ti f ica ti o n   sy ste m   u n d e c o - c h a n n e c o n d i ti o n ,   JT EA   2 0 1 0   T u n isia.    [1 1 ]   W a jd i   G h e z a iel ,   Am e B e n   S li m a n e Ezz e d in e   Be n   Bra ie k .   E v a lu a ti o n   o f   a   m u lt i - re so lu ti o n   d y a d ic  wa v e let  tran sf o r m   m e th o d   f o u sa b le s p e e c h   d e tec ti o n ,   w a se jo u rn a l .   2 0 1 1     V o l. 7 9     P .     8 2 9 - 8 3 3 .   [1 2 ]   W a jd G h e z a iel ,   Am e B e n   S li m a n e ,   Ezz e d in e   Be n   Bra iek .   Us a b le  S p e e c h   A s sig n m e n f o S p e a k e Id e n ti f ica ti o n   u n d e C o - Ch a n n e S it u a ti o n .   In t e rn a ti o n a l   J o u r n a l   o f   Co mp u ter   Ap p li c a ti o n s ,   5 9 ( 1 8 ) :   7 - 1 1 ,   De c e m b e 2 0 1 2 .       [1 3 ]   J.  S iri g o s,  N.  F a k o tak is,   G .   Ko k k in a k is:  A   c o mp a riso n   o se v e ra sp e e c h   p a ra me ter fo sp e a k e in d e p e n d e n t   sp e e c h   re c o g n it i o n   a n d   s p e a k e r re c o g n it i o n ,   in   p r o c .   Eu r o sp e e c h 9 5 ,   M a d ri d ,   S p a in ,   (1 9 9 5 1 8 - 21.   [1 4 ]   S h a o   Y.  a n d   W a n g   D. L .   (2 0 0 3 ):  Co - c h a n n e sp e a k e id e n ti fi c a ti o n   u sin g   u sa b le  sp e e c h   e x tra c ti o n   b a se d   o n   mu lt i - p it c h   tr a c k in g .   P r o c e e d in g s o f   ICA S S P - 0 3 ,   v o l .   I I.   2 0 5 - 2 0 8 .       B I O G RAP H I E S   O F   AUTH O RS       Wa jd G h e z a iel   b o rn   in   T u n is  ( T u n isia),  h e   re c e iv e d   th e   b a c h e lo d e g re e   f ro m   th e   h ig h   sc h o o l   o f   sc ien c e a n d   tec h n iq u e o f   T u n isia  si n c e   2 0 0 1 ,   th e   M a ste De g re e   a n d   th e   P h . D   d e g re e   in   S ig n a p r o c e ss in g   f ro m   Hig h   S c h o o o f   S c ien c e a n d   T e c h n iq u e o f   T u n is  re sp e c ti v e l y   in   2 0 0 4   a n d   2 0 1 4 .   He   b e lo n g to   th e   CERE P   g ro u p   in   t h e   h ig h   sc h o o o f   sc ien c e s   a n d   tec h n iq u e o f   T u n isia.  Dr  G h e z a iel  h a p u b li s h e d   o v e 1 1   sc h o larly   re se a rc h   p a p e rs  in   m a n y   jo u rn a a n d   in tern a ti o n a c o n f e re n c e a n d   h e   i a lrea d y   su p e rv isin g   o v e ten   m a ste rs  a n d   e n g in e e a p p li c a ti o n   p ro jec ts.   His res e a rc h   in tere sts     a re   f o c u sin g   o n   sig n a l,   v o ice   re c o g n it io n   a n d   f il terin g .         A m e B e n   S li m a n e   is  c u rre n tl y   As sista n P ro f e ss o o f   tele c o m m u n ica ti o n a th e   Na ti o n a l   S c h o o o f   Co m p u ter  S c ien c e s   (Eco le  Na ti o n a le  d e S c ien c e d e   l' In f o rm a ti q u e ,   ENS I),   Un iv e rsit y   o f   M a n o u b a ,   T u n isia  sin c e   2 0 0 3 .   S h e   re c e iv e d   h e En g in e e rin g   d e g re e   a n d   P h . in   e lec tri c a e n g in e e rin g   b o th   f ro m   Na ti o n a S c h o o o f   En g in e e rin g   o f   T u n is  (Eco le  Na ti o n a le  d ‟In g é n ieu rs  d e   T u n is,   ENIT re sp e c ti v e l y   in   1 9 8 5   a n d   2 0 0 3 .   H e re se a rc h   in tere sts  f o c u o n   sig n a p ro c e ss in g .   P a rti c u larly ,   S h e   w o rk s o n   sp e e c h   p ro c e ss in g .   T h e   re su lt s o f   h e r   re se a rc h   w o rk   h a v e   b e e n   p u b li sh e d   i n   m a n y   in tern a ti o n a c o n f e re n c e s.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E   Vo l.  6 ,   No .   6 Decem b er   201 6   : 2 7 6 6     2 7 7 2   2772     Ez z e d in e   B e n   B r a ie k   o b tain e d   h is  HD o n   2 0 0 8   in   El e c tri c a En g in e e rin g   f ro m   ENS E T u n isia.  He   is,   p re se n tl y ,   p ro fe ss o in   t h e   d e p a rtm e n o f   e l e c tri c a l   e n g in e e rin g   a th e   tec h n ica uni v e rsity   ES S T T   a n d   m a n a g e o f   th e   re se a rc h   g ro u p   o n   sig n a a n d   im a g e   p ro c e ss in g   a th e   CERE P .   His  f ield o f   in tere st  in c lu d e   a u t o m a ti c s,  e le c tro n ics ,   c o n tro l ,   c o m p u ter  v isio n ,   im a g e   p ro c e ss in g   a n d   it s ap p li c a ti o n   in   h a n d w rit ten   d a ta rec o g n it i o n .     Evaluation Warning : The document was created with Spire.PDF for Python.