T E L K O M N I K T elec o m m un ica t io n,  Co m pu t ing ,   E lect ro nics   a nd   Co ntr o l   Vo l.   18 ,   No .   5 Octo b er   2 0 2 0 ,   p p .   2 5 8 7~ 2 5 9 6   I SS N:  1 6 9 3 - 6 9 3 0 ,   ac cr ed ited   First Gr ad b y   Kem en r is tek d i k ti,  Dec r ee   No : 2 1 /E/KPT /2 0 1 8   DOI 1 0 . 1 2 9 2 8 /TE L KOM NI K A. v 1 8 i5 . 1 4 2 4 6     2587       J o ur na l ho m ep a g e h ttp : //jo u r n a l.u a d . a c. id /in d ex . p h p /TELK OM N I K A   So und event  det e ction using  de ep  neura l net wo rks       Suk - H wa n J un g ,   Yo ng - J o o   Chun g   De p a rtme n o El e c tro n ics ,   Ke imy u n g   U n iv e rsit y ,   Ko re a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Oct  1 ,   2 0 1 9   R ev is ed   Ap r   2 3 ,   2 0 2 0   Acc ep ted   Ma y   8 ,   2 0 2 0       We  a p p li e d   v a ri o u a rc h it e c tu re s   o d e e p   n e u ra l   n e two r k fo r   so u n d   e v e n t   d e tec ti o n   a n d   c o m p a re d   t h e ir  p e rfo rm a n c e   u sin g   two   d iffere n t   d a tas e ts.  F e e d   fo rwa rd   n e u ra n e two r k   (F NN ),   c o n v o l u ti o n a n e u ra n e tw o r k   (CNN ),   re c u rre n n e u ra n e two rk   (RNN a n d   c o n v o l u ti o n a re c u rre n n e u r a n e two r k   (CRNN we re   imp lem e n ted   u si n g   h y p e r - p a ra m e ters   o p ti m ize d   fo r   e a c h   a rc h it e c tu re   a n d   d a tas e t.   T h e   re su l ts  sh o th a t h e   p e rf o rm a n c e   o d e e p   n e u ra n e two rk v a rie d   sig n ifi c a n tl y   d e p e n d i n g   o n   t h e   lea rn in g   ra te,  wh ich   c a n   b e   o p ti m ize d   b y   c o n d u c ti n g   a   se ries   o e x p e rime n ts  o n   t h e   v a li d a ti o n   d a ta  o v e p re d e term in e d   ra n g e s.  Am o n g   t h e   imp lem e n ted   a rc h it e c tu re s,  th e   CRNN   p e rfo rm e d   b e st  u n d e a ll   tes ti n g   c o n d it io n s,  fo ll o we d   b y   CNN .   Alth o u g h   RNN   wa e ffe c ti v e   in   trac k in g   t h e   ti m e - c o rre latio n   i n fo rm a ti o n   i n   a u d i o   sig n a ls,   it   e x h ib it e d   i n fe rio p e rfo rm a n c e   c o m p a re d   to   th e   CNN   a n d   t h e   CRNN .   Ac c o rd in g ly ,   it   is  n e c e ss a ry   to   d e v e l o p   m o re   o p ti m iza ti o n   str a teg ies   fo r   imp lem e n ti n g   RNN   in   s o u n d   e v e n d e tec ti o n .   K ey w o r d s :   C o n v o lu t io n al  n eu r al  n etwo r k   C o n v o lu tio n al  r e cu r r e n n eu r al   n etwo r k   Dee p   n eu r al  n etwo r k s   Feed f o r war d   n eu r al  n etwo r k   R ec u r en t n eu r al  n etwo r k   So u n d   ev e n t d etec tio n   T h is i a n   o p e n   a c c e ss   a rticle   u n d e th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Yo n g - J o o   C h u n g ,   Dep ar tm en t o f   E lectr o n ics,    Keim y u n g   Un i v er s ity ,   Ko r ea .   E m ail:  y jju n g @ k m u . ac . k r       1.   I NT RO D UCT I O N   Au to m atic  s o u n d   ev en d etec tio n   is   p atter n   r ec o g n itio n   tech n iq u th at  au to m atica lly   id en tifie s   v ar io u s   s o u n d   ev e n ts   o cc u r r in g   d aily ,   s u ch   as  g lass   b r ea k in g ,   b ab y   cr y in g ,   p eo p le  s cr ea m in g   an d   ca r   h o r n in g .   I n   ad d itio n   to   i d en tify in g   th e   lab el  o f   s o u n d   e v en ts ,   it  d etec ts   th eir   o n s et  an d   o f f s et  tim es .   Au to m atic  s o u n d   ev en d etec tio n   h as  r ec e n tly   g ain ed   p o p u lar ity   o win g   to   its   n u m er o u s   p o s s ib le  ap p l icatio n s ,   in clu d in g   s u r v eillan ce ,   u r b an   s o u n d   an aly s is ,   in f o r m atio n   r etr iev al  f r o m   m u ltime d ia  co n ten t,  h e alth   ca r e,   b ir d   ca ll   d etec tio n ,   an d   au to n o m o u s   v e h icles [ 1 - 6 ] .   T o   en co u r a g r esear ch   in   th g en er al  ar ea   o f   s o u n d   s ig n al  class if icatio n   in clu d in g   s o u n d   ev en t   d etec tio n ,   t h “De tectio n   an d   C las s if icatio n   o f   Aco u s tic  Sce n es  an d   E v e n ts   ( DC ASE)   ch allen g was  h el d   in   2 0 1 3 ,   2 0 1 6 ,   2 0 1 7 ,   2 0 1 8 ,   a n d   2 0 1 9   [ 7 - 1 1 ] .   I t   in clu d es   two   d if f er en ca teg o r ies:   ac o u s tic  s ce n class if icatio n   an d   s o u n d   e v en d etec tio n .   I n   th e   f o r m er ,   th ty p o f   ac o u s tic  en v ir o n m e n is   d eter m in e d   u s in g   lo n g   s eg m en t   o f   au d io   s ig n als,  wh er ea s ,   in   th latter ,   s p ec if ic  s o u n d   ev en t s   o cc u r r in g   in   an   ac o u s tic  s ce n ar r ec o g n ize d .     I n   th is   s tu d y ,   we  o n ly   f o cu s   o n   s o u n d   ev en d etec tio n   u s in g   t wo   p u b lic  d atab ases   f r o m   DC ASE  2 0 1 6   an d   [ 1 2 ] .   B ef o r th em er g en ce   o f   m eh o d s   b ased   o n   d ee p   n eu r al  n etwo r k s ,   Gau s s ian   m ix tu r m o d el s   ( GM Ms)   wer wid ely   u s ed   in   s o u n d   ev en d etec tio n .   I n   f ac t,  GM M   was  u s ed   as  b aselin r ec o g n izer   in   th DC ASE  2 0 1 6   c h allen g f o r   T ask   1   ( a co u s tic  s ce n class if icatio n )   a n d   T ask   3   ( m o n o p h o n ic  s o u n d   ev en d etec tio n ) .     T h s im p le  GM M - b ased   b ag - of - f r am es  ap p r o ac h   was  ad o p te d   in   th b aselin s y s tem   [ 1 3 ] ,   wh er e     th m el - f r e q u en c y   ce p s tr al  co ef f icien ts   ( MFC C s ) ,   wh ich   h a v b ee n   wid ely   em p lo y ed   in   s p ee ch   r ec o g n itio n ,   wer u s ed   as  ac o u s tic  f ea tu r es  f o r   th GM M.   I n   ad d itio n   to   GM Ms,  tr ad itio n al  m ac h in lear n in g   m eth o d s ,   s u ch   Evaluation Warning : The document was created with Spire.PDF for Python.
                    I SS N :   1 6 9 3 - 6 9 3 0   T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l Vo l.  18 ,   No .   5 Octo b e r   2 0 2 0 :    2 5 8 7   -   259 6   2588   as  s u p p o r t   v ec to r   m ac h in es  ( S VM s )   [ 1 4 ]   an d   n o n - n eg ativ e   m atr ix   f ac t o r izatio n   ( NM F)  [ 1 5 ] ,   wer e   also   wid el y   u s ed   in   s o u n d   ev e n d etec tio n   b ef o r e   th eir   in f er i o r ity   t o   r ec e n t d ee p   lear n i n g - b ased   m eth o d s   was d em o n s tated .   Du r in g   th e   last   d ec ad e,   d ee p   n eu r al  n etw o r k s   h a v ac h iev e d   g r ea s u cc ess   in   im a g class if icatio n ,   s p ee ch   r ec o g n itio n   an d   m ac h i n tr an s latio n   [ 1 6 - 2 0 ] .   C u r r e n tly ,   d ee p   n eu r al  n etwo r k s   ex h ib it  s tate - of - th e - ar t   p er f o r m an ce   in   all  th ese  d o m ai n s .   I n   s o u n d   ev en d etec tio n ,   F NNs  h av ac h iev ed   b etter   p er f o r m an ce   c o m p ar e d   with   GM Ms  an d   SVMs  an d   it  ap p ea r s   th at  t h ey   h av r ep l ac ed   th tr a d itio n al  m et h o d s   in   th s o u n d   e v en t   d etec tio n .   Owin g   to   th eir   s i m p le  ar ch itectu r e,   FNNs   h av ad v an tag es  o v er   o th er   d ee p   n eu r al   n etwo r k s .   Sp ec if ically ,   f ewe r   p ar a m eter s   an d   l ess   co m p u tatio n al  tim a r r eq u ir e d .   Sev er al  f r am es  o f   n eig h b o r in g   a u d io   f ea tu r es  ( u s u ally ,   lo g - m el  f ilter b an k   ( L MFB )   en er g ies)  ar c o n ca ten ated   in   th tim e - d o m a in   s o   th at  th ey   ca n   b u s ed   as  in p u to   th e   n etw o r k .   Su b s eq u en tly ,   th ey   a r m u ltip lied   b y   weig h m atr ice s   an d   p ass   th r o u g h   n o n lin ea r   f u n ctio n s ,   a n d ,   h en ce   th ey   ar f o r war d   p r o p ag a ted .   Ho wev er ,   th e   s tr u ctu r e   o f   an   FNN  ca n n o t   ef f ec tiv ely   co m p en s ate  f o r   t h tr an s latio n al  v ar ian ce s   o cc u r r i n g   in   im ag s ig n als  o win g   to   th f ix ed   co n n ec tio n s   b etwe en   th e   in p u an d   h id d en   u n its .   Similar   p r o b lem s   o cc u r   in   s o u n d   ev e n d etec tio n   b e ca u s th v ar iatio n s     in   th tim e - f r eq u e n cy   d o m ai n   o f   t h au d io   s ig n al   m ay   n o b well  m o d eled   b y   th FNN.   An o th er   p r o b lem   is   th at  th tem p o r al  c o n tex is   r es tr icted   to   s h o r t - tim win d o ws  o f   th in p u au d i o th er ef o r e,   it  is   d if f icu lt  to   m o d el   lo n g - ter m   co r r elatio n s   in   th a u d io   s ig n als.    C o m p ar ed   with   FNNs ,   C NNs   ca n   ad d r ess   th e   p r o b lem   o f   t im e - f r eq u e n cy   d o m ain   v ar iatio n s   m o r e   ef f icien tly .   Ho wev er ,   C NNs  ca n n o ef f ec tiv el y   m o d el  lo n g - ter m   co n te x co r r elatio n s   i n   th tim e - d o m ai n .   R ec u r r en n eu r al  n etwo r k s   ( R NNs)  h av b ee n   q u ite  s u cc ess f u in   m o d elin g   tem p o r al  co n t ex in f o r m atio n   in   s p ee ch   r ec o g n itio n .   Ho wev e r ,   o win g   to   th eir   s h o r tco m in g s   in   ca p tu r in g   th e   in v ar ia n ce   in   th tim e - f r e q u en c y   do m ain ,   R NNs  ar u n a b le  to   o u tp er f o r m   C NNs  in   s o u n d   ev en d etec tio n .   Sev er al  a p p r o ac h es  h av e   b ee n   p r o p o s ed   f o r   co m b i n in g   C N Ns  an d   R NNs  to   tak ad v an tag o f   b o th   n etwo r k s .   R ec en tly ,   co n v o lu tio n al  r ec u r r en n eu r al  n etwo r k s   ( C R NNs),   co m b in atio n   o f   C NNs  an d   R N Ns  in   s in g le  n etwo r k ,   h av b ee n   p r o p o s ed   f o r   s o u n d   ev en d ete ctio n ,   s p ee ch   r ec o g n itio n   an d   m u s ic  class if icatio n   [ 1 2 ,   2 1 - 2 4 ] .   I n   th is   p ap er ,   we  p r o p o s th e   u s o f   C R NN  in   p o ly p h o n ic  an d   s ce n e - in d ep en d en s o u n d   ev e n d etec tio n   an d   s u g g est  o p tim al   h y p er - p ar am eter s   an d   tr ain in g   s tr ateg ies.  T h u s ,   th ad v a n tag o f   C R NNs  o v er   C NNs  an d   R NNs  i s   ex p ec ted   to   b m ax im ized .   W ev alu ated   th p er f o r m an ce   o f   th C R NN   o n   r ec en d atasets ,   in clu d in g   f r o m   th DC ASE  2 0 1 6   ch allen g e.   W also   co m p ar ed   th p er f o r m a n ce   o f   th C R NN  wi th   C NN ,     an   FNN  an d   a n   R NN  s o   th at  th ad v an at g es  o f   t h C R NN  m ay   b b etter   u n d er s to o d .   T h r em ain d e r   o f   th is   p ap er   is   o r g an ized   as  f o llo ws ;   i n   s ec tio n   2 ,   we  p r esen f ea tu r ex tr ac tio n   m eth o d   a n d   d ee p   n eu r al  ar ch itectu r es   u s ed   in   t h is   s tu d y .   I n   s ec t io n   3 ,   we  p r esen an d   d is cu s s   th r e s u lts   o f   v ar io u s   ex p er im en ts   i n v o lv in g   th e   FNN,   C NN,   R N an d   C R NN.   Fin all y ,   s ec tio n   4   c o n clu d es th e   p ap er .       2.   F E AT U RE   E XT RAC T I O AND  DE E P   NE U RAL A RC H I T UR E S     2 . 1 .       F ea t ure  ex t ra ct io n     I n   th is   s tu d y ,   we  u s L MFB   o u tp u ts   as  f ea tu r es  f o r   d e ep   n eu r al  n etwo r k s .   W f ir s co m p u te    th s h o r t - tim Fo u r ier   tr an s f o r m   ( STFT )   o f   4 0 - m s   au d i o   s ig n als  th at  wer s am p led   at  4 4 . 1   k Hz.   T h STFT   is   co m p u ted   ev er y   2 0   m s   with   5 0 o v er lap .   to tal  o f   4 0   b a n d s   o f   m el - f ilter b a n k   a r ex tr ac ted   f r o m   th STFT   with   th r a n g o f   0 ~2 2 , 0 5 0   Hz   an d   ar l o g - tr a n s f o r m ed   to   o b tain   4 0 - d im e n s io n al  L MFB   f o r   ea ch   2 0   m s   tim e   f r am e.   Af ter   c o m p u tin g   th L MFB s ,   we  n o r m alize   th em   b y   s u b tr ac tin g   th m ea n   an d   d iv i d in g   b y   th s tan d ar d   d ev iatio n   co m p u ted   f r o m   th t r ain in g   d ata.     2 . 2 .     F NN   T h af o e r m en tio n ed   4 0 - d im e n tio n al  L MFB s   ar u s ed   as  f ea tu r es.  Fiv s u cc ess iv tim f r am es  ar e   co n ca ten ated   to   f o r m   1 0 0 - d im en s io n al  f ea tu r v ec t o r s   as  th in p u to   th FNN.   E ac h   o f   th t wo   2   h id d e n   lay er s   h as  1 6 0 0   h id d en   u n its   with   R eL ac tiv atio n .   On o u tp u t   lay er   with   s ig m o i d   ac tiv atio n   h as   K   u n its   wh er e   K   is   th n u m b er   o f   s o u n d   ev e n class es   to   b r ec o g n ized .   T h e   o u tp u ts   o f   th s ig m o id   ac tiv atio n   ar tak en   as    th p o s ter io r   p r o b a b ilit ies  f o r   ea ch   o f   th class es,  an d   th b in ar ized   o u tp u ts   ar co m p ar e d   w ith   th g r o u n d   tr u th   tab le  to   d eter m in e   th ac cu r ac y   o f   th e   FNN.     2 . 3 .     C NN   T h in p u to   th C NN  is   T × 40   L MFB   f ea tu r es,  an d   th o v er all  s tr u ctu r o f   t h n etwo r k   is   s h o wn     in   Fig u r 1 .   W u s d if f er en s tr u ctu r es  f o r   ea ch   o f   th two   s elec ted   d atasets .   T h s tr u ctu r in   th f ig u r is   u s ed   f o r   t h T UT   s o u n d   ev e n ts   2 0 1 6   d ataset.   T h T   f r am es   o f   th 4 0 - d im en s io n al  L M FB s   ar in p u to     th co n v o lu tio n al  lay er   with   2 5 6   f ea tu r m a p s ,   an d   ea ch   f ea tu r m ap   h as  two - d im en s io n al  5 × 5   co n v o l u tio n al  f ilter   with   R eL ac tiv atio n .   T h e   o u tp u t   o f   th c o n v o lu tio n al  lay e r   p ass es  th r o u g h     n o n - o v e r lap p in g   m a x   p o o lin g   lay er   to   r ed u ce   th e   d im en s i o n ality   o f   th e   d ata.   W co m p u te  th m ax   p o o lin g   o p er atio n   o n ly   in   t h f r eq u en c y   d o m ain   t o   r etain   th tem p o r a in f o r m atio n   i n   th L MFB s .   T h is   i s   in   co n tr ast  to   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l         S o u n d   ev en d etec tio n   u s in g   d ee p   n eu r a l n etw o r ks   ( Suk - Hw a n   Ju n g )   2589   C NNs   u s ed   in   im ag clas s if ic atio n ,   wh er th m ax   p o o in g   o p er atio n   is   p er f o r m e d   in   b o th   d im en s io n s .   Un lik e   im ag s ig n als,  th tim r eso lu t io n   in f o r m atio n   s h o u ld   b m ain tain ed   in   t h au d io   s ig n als  to   d eter m in th e   o n s et   an d   o f f s et  tim es  in   t h s o u n d   ev en d etec tio n .   T h e r ar th r ee   C NN  lay er s ,   an d   th o u tp u h as  d im en s io n   o f   T   × 1 × 256   ,   wh er t h d im en s io n   o f   th f r eq u en cy   d o m ain   is   r ed u c ed   to   1 ,   wh er ea s   t h d i m en s io n   o f     th tim d o m ain   is   u n ch a n g e d ,   as  m en tio n ed   p r ev i o u s ly .   T h o u t p u o f   th e   C NN  lay er s   is   f ed   in to   s in g le     f ee d - f o r war d   lay er   th at  h as  2 5 6   u n its   with   R eL U   ac tiv atio n .   T h f in al  o u tp u lay er   with   K( =n u m b er   o f   class es)   u n its   o f   s ig m o id   ac tiv atio n   f o llo ws  th f ee d - f o r war d   lay e r   an d   y ield s   th s o u n d   ev en t   ac tiv ity   p r o b ab ilit ies    f o r   ea ch   s o u n d   class   at  ea ch   tim f r am e.   Fin ally ,   th p r o b ab ilit ies  ar b in ar ized   af ter   th r esh o ld in g   o v er     co n s tan v alu ( 0 . 5 ) ,   an d   th ac tiv ity   o f   class   at  tim f r a m is   d eter m in ed   to   b ac tiv o r   in ac tiv d e p en d in g   o n   wh eth er   th b in a r ized   p r o b ab ilit y   is   1   o r   0 .     2 . 4 .     R NN   T h ar ch itectu r e   o f   th R NN  u s ed   in   th is   s tu d y   f o r   T UT   s o u n d   ev en ts   2 0 1 6   is   s h o wn   i n   Fig u r 2 .   T × 40   L MFB   f ea tu r es  ar u s ed   as  th in p u o f   th GR in   th R N a r ch itectu r e.   W u s th r ee   lay er s   o f   GR Us   with   2 5 6   u n its ,   f o llo wed   b y   f o u r   f ee d - f o r wa r d   lay e r s   with   2 5 6   u n its .   T h o u tp u lay er   h as  u n its   with   s ig m o id   ac tiv atio n .   B y   u s in g   m u ltip le  f ee d - f o r war d   la y er s ,   th e   C NN  an d   R NN  h av e   eq u ally   d ee p   l ev els,  th u s   allo wi n g   th eir   p er f o r m an ce   co m p a r is o n .           Fig u r e   1 .   C NN  ar ch itectu r f o r   T UT   s o u n d   ev en ts   2 0 1 6           Fig u r e   2 .   R NN  ar ch itectu r f o r   T UT   s o u n d   ev en ts   2 0 1 6         Evaluation Warning : The document was created with Spire.PDF for Python.
                    I SS N :   1 6 9 3 - 6 9 3 0   T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l Vo l.  18 ,   No .   5 Octo b e r   2 0 2 0 :    2 5 8 7   -   259 6   2590   2 . 5 .     CR NN   T h ar ch itectu r o f   th C R NN  u s ed   in   th is   s tu d y   f o r   T UT   s o u n d   e v en ts   2 0 1 6   is   s h o wn   i n   Fig u r 3 .     I co n s is ts   o f   co n v o lu tio n al   lay er s   in   ca s ca d with   r ec u r r en lay e r s   f o llo wed   b y   an   o u tp u lay e r .     T h co n v o lu tio n   lay e r s   ac as  r o b u s ( tim e -   an d   f r eq u en cy - in v ar ian t)   f ea t u r ex tr ac to r .   T h r ec u r r e n lay er s   p r o v id e   co n tex t u al  in f o r m atio n   in   th tim d o m ain ,   wh ich   i s   h ig h ly   im p o r tan f o r   r ec o g n i zin g   s o u n d   ev en ts .   Fin ally ,   th o u tp u lay e r   g en e r ates  th ac tiv ity   p r o b ab ilit ies  f o r   th s o u n d   ev e n class es  f o r   g iv e n   f r am e .     T h p a r am eter s   o f   th e   co n v o lu tio n al,   r ec u r r en t,   an d   f ee d f o r w ar d   lay e r s   ar o p tim iz ed   th r o u g h   b ac k p r o p ag atio n .           Fig u r 1 .   C R NN  ar ch itectu r f o r   T UT   s o u n d   ev e n ts   2 0 1 6       3.   E XP E R I M E N T S     3 . 1 .       D a t a ba s es   W ev alu ated   th d ee p   n eu r al  n etwo r k s   o n   two   d atasets .   On was  ar tific ial ly   g en er ated ,   ( T UT   s o u n d   ev en ts   s y n th etic  2 0 1 6   ab b r ev iated   as  T UT - SED  s y n th etic ) ,   an d   th o th er   ( T UT   s o u n d   ev en ts   2 0 1 6 )   was   r ec o r d e d   in   r ea en v ir o n m e n t s .   T h f o r m er   was  s elec ted   s i n c th an n o tatio n s   in   r ea au d io   d ata  ar r ath er   s u b jectiv e;  th er ef o r e,   th g r o u n d   tr u th   lab elin g   m ay   d ep e n d   ex ce s s iv ely   o n   th an n o ta to r s ,   p ar ticu lar ly   in     th p r esen ce   o f   p o l y p h o n ic  s o u n d   ev en ts .     T UT - SED  Sy n th etic  was  g en e r ated   b y   m ix in g   is o lated   s o u n d   e v en ts   f r o m   1 6   d if f e r en class es.  to tal   1 0 0   m ix tu r es  wer cr ea ted   f r o m   9 9 4   s o u n d   s am p les  an d   d iv i d ed   in to   tr ain in g ,   test in g   an d   v alid atio n   d ata,   with   p r o p o r tio n s   6 0 %,  2 0 %,  an d   2 0 %,  r esp ec tiv ely .   T h to tal  len g th   o f   th m ix tu r d ata  was 5 6 6   m in .   Seg m en ts   o len g th   3 - 1 5   s   wer s elec ted   f r o m   s o u n d   ev e n in s tan ce s   to   co n s titu te  m ix tu r e,   an d   th er wer n o   co m m o n   s o u n d   ev e n t in s tan ce s   b etwe en   tr ain in g ,   test in g ,   an d   v alid ati o n   d ata.     T UT   s o u n d   e v en ts   2 0 1 6   c o n s is ts   o f   r ec o r d in g s   in   two   r ea l   e n v ir o n m en ts r esid en tial  an d   h o m e.   E ac h   r ec o r d in g   was  o b tain ed   f r o m   d if f er en lo ca tio n s   to   en s u r l ar g v ar iab ilit y .   Au d io   s am p le s   with   th len g th   o f   3 - 5   m i n   wer r ec o r d e d   at  ea ch   lo ca tio n ,   an d   t h to tal  len g th   o f   th au d io   s am p les  is   7 8   m in .   to tal  o f     7   m an u ally   a n n o tate d   class es  co r r esp o n d   t o   th e   r esid en tial  en v ir o n m en t,   wh er ea s   1 1   a n n o tated   s o u n d   ev en t   class es  co r r esp o n d   to   th h o m en v ir o n m en t.  T h f o u r - f o ld   cr o s s - v alid atio n   a p p r o ac h   was  ad o p ted   in     th tr ain in g   an d   test in g   p r o ce d u r to   co m p en s ate  f o r   th s m a ll  am o u n o f   d ata  in   t h is   d ataset.   T wen ty   p er ce n t   o f   th tr ain i n g   d ata  wer e   allo c ated   as  v alid atio n   d ata  i n   th t r ain in g   p h ase.   T UT   s o u n d   ev e n ts   2 0 1 6   was  u s ed   in   th DC ASE  2 0 1 6   ch allen g e,   wh er th e   two   en v ir o n m en t s   wer s ep ar ately   ev alu ate d   f o r   s ce n e - d e p en d e n t   class if icatio n .   I n   th is   s tu d y ,   th class es  f r o m   th e   two   wer e   n o t   d is tin g u is h ed ,   r esu ltin g   i n   1 8 ( =7 + 1 1 )   s o u n d   ev en class es  to   b r ec o g n ize d   f o r   s ce n e - in d ep en d en t   class if icatio n .   T h er ef o r e,   o n ly   o n cl ass if ier   is   r eq u ir ed ,   r ath er   th an   two ,   as wa s   th ca s in   th D C ASE  2 0 1 6   c h allen g e.       Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l         S o u n d   ev en d etec tio n   u s in g   d ee p   n eu r a l n etw o r ks   ( Suk - Hw a n   Ju n g )   2591   3 . 2 .     E v a lua t i o m et rics   E v alu atio n   m eth o d s   u s eith er   s eg m en t -   o r   e v en t - b ased   m et r ics  [ 2 5 ] .   I n   t h e   f o r tm er ,   th e v alu atio n   o f   d ee p   n eu r al  n etwo r k   f o r   s o u n d   ev e n d etec tio n   u s es  th er r o r   r ate  an d   F - s co r in   f ix ed   tim g r id .     T h e   b in ar ized   o u tp u ts   o f   th n etwo r k   ar co m p ar ed   with   th g r o u n d   tr u t h   T ab le  in   1   s   s eg m en ts .   s o u n d   ev e n t   class   is   as s u m ed   to   b e   d etec te d   co r r ec tly   in   g iv e n   s eg m e n if   b o t h   th g r o u n d   tr u th   tab l an d   t h b in ar ized   o u tp u co r r esp o n d in g   to   th cl ass   ar ac tiv th r o u g h o u th s eg m en t.  f alse  p o s itiv im p lies   th at  th g r o u n d   tr u th   tab le   in d icate s   th at  a   s o u n d   ev e n class   is   in ac tiv e,   b u th b in ar ize d   o u tp u is   ac tiv e .   I n   co n tr ast,  f alse  n eg ativ im p lies   th at    th g r o u n d   tr u t h   tab le  i n d icate s   th at  th clas s   is   ac tiv e,   b u th o u tp u is   in ac tiv e.   Fin ally ,   tr u p o s itiv im p lies   th at  b o t h   th g r o u n d   tr u th   ta b le  an d   t h o u tp u in d icate   th at  s o u n d   ev en class   is   ac tiv e.   F - s co r is   ca lcu lated   as f o llo ws ;     P =   +  ,             =   +  ,           = 2  +       wh er T P,  FP   an d   FN   ar co u n ts   o f   tr u p o s itiv es,  f alse p o s i tiv es,  an d   f alse n eg ativ es,  r esp ec tiv ely .   Fu r th er ,   d en o tes p r ec is io n ,   a n d   R   is   r ec all.   An o th er   m etr ic  is   t h er r o r   r ate  ( E R ) ,   wh ic h   is   ca lcu late d   in   te r m s   o f   in s er tio n s ,   d elet io n s ,   an d   s u b s titu tio n s .   s u b s titu tio n   e r r o r   o cc u r s   wh en   th b in ar ize d   o u tp u d etec ts   s o u n d   ev en t   class   in   s eg m e n t,   b u th e   lab el  o f   th e   d etec ted   class   is   d if f er en f r o m   t h at  o f   th g r o u n d   tr u th   tab le.   s u b s titu tio n   er r o r   im p lies   th a f alse  p o s itiv an d   f alse  n eg ativ o cc u r   s im u ltan eo u s ly   in   s eg m en t.  W h en   o n ly   f a ls p o s itiv es  o cc u r   in   s eg m en t,  th ey   ar co u n ted   as  in s er tio n s ,   an d   wh en   o n ly   f a ls n eg ativ es  o cc u r ,   th ey   ar co u n ted   as  d eletio n s .   T h E R   is   ca lcu lated   as f o llo ws ;     E R = ( ) = 1 + ( ) = 1 + ( ) = 1 ( ) = 1       wh er e,   N ( k )   is   th n u m b er   o f   ac tiv g r o u n d   tr u th   e v en ts   in   s eg m en k   an d   S ( k ) , D ( k )   an d   I ( k )   d e n o t e     th n u m b er   o f   s u b s titu tio n s ,   d eletio n s   an d   in s er tio n s ,   r esp ec t iv ely   .   K   is   th to tal  n u m b er   o f   s eg m en t s.   I n   ev en t - b ased   m etr ics,  a   s o u n d   e v en is   ass u m ed   to   b e   co r r ec tly   d etec ted   if   t h b in ar ize d   o u tp u o f   th n etwo r k   h as  tim e - in ter v als  o v er lap p in g   with   th o s o f   th co r r ec lab el  in   th g r o u n d   tr u th   tab le.   2 0 0   m s   to ler an ce   is   allo wed   f o r   o n s et  tim e,   an d   t h s am am o u n o f   tim ( 2 0 0 m s )   o r   5 0 o f   th d u r atio n   o f   th co r r ec t   lab el  is   allo wed   f o r   th e   o f f s et  ti m e.   f alse  p o s itiv o cc u r s   w h en   an   ac tiv e   b in ar ized   o u tp u t   d o es  n o t   co r r esp o n d   to   th co r r ec lab el  in   th g r o u n d   tr u th   tab le  with in   th allo w ed   to ler an ce .   I f   s o u n d   ev en t in   th g r o u n d   tr u th   tab le  d o es n o t c o r r esp o n d   to   th b in ar ized   o u tp u t w ith   th s am lab el,   f alse n eg ativ e   o cc u r s .     3 . 3 .     Resul t s   W ap p lied   b atch   n o r m aliza tio n   af ter   th c o n v o lu tio n al  lay e r s   an d   d r o p o u t r ate  o f   0 . 2 5   was a p p lied   to   th e   co n v o lu tio n al  an d   r ec u r r en lay e r s .   W tr ain e d   th e   n et wo r k s   u s in g   a   b in ar y   c r o s s - en tr o p y   lo s s   f u n ctio n   with   th Ad am   o p tim izer .   E ar ly   s to p p in g   was  u s ed   to   r ed u ce     o v er f itti n g .   T h tr ain in g   was  s to p p ed   if   th v alu e   o f   th lo s s   f u n ctio n   d id   n o i m p r o v e   f o r   m o r t h an   1 0 0   e p o ch s .   As  th p er f o r m an ce   o f   d ee p   n eu r al  n etwo r k s   v ar ies  with   th lear n in g   r ate,   we  attem p ted   to   s elec th o p tim al  lear n in g   r ate  f o r   all  n etwo r k s   b y   test in g   th eir   p er f o r m an ce   o n   th v alid atio n   d ata.   T h p e r f o r m an ce   o f   th C R N o n   th T UT - SED  Sy n t h etic  as  th lear n in g   r ate  ch an g es is   s h o wn   in   T ab l 1 .       T ab le   1 .   Per f o r m an ce   o f   C R NN  o n   T UT - SED  Sy n th etic   as l ea r n in g   r ate  ch an g es       ( b o ld   f a ce   n u m b er s   r ep r esen t th b est r esu lts )   Le a r n i n g   r a t e   V a l i d a t i o n   d a t a   Te st i n g   d a t a   Ep o c h   S e g m e n t - b a se d   (F - sco r e / ER )   Ev e n t - b a s e d   (F - c o r e / ER )   S e g m e n t - b a se d   (F - sco r e / ER )   Ev e n t - b a s e d   (F - sco r e / ER )   10 3   6 1 . 6 9 %   /   0 . 5 2   3 7 . 6 9 % / 0 . 9 6   6 0 . 6 1 %   /   0 . 5 3   3 7 . 0 5 % / 0 . 9 7   16   10 4   6 8 . 7 5 %   /   0 . 4 5   4 3 . 4 9 % / 0 . 8 8   6 4 . 2 1 %   /   0 . 5 0   4 0 . 5 0 % / 0 . 9 6   33   10 5   6 6 . 4 4 %   /   0 . 4 9   3 9 . 1 0 % / 0 . 9 6   6 3 . 7 6 %   /   0 . 5 2   3 6 . 4 8 % / 1 . 0 4   1 5 7   10 6   4 4 . 1 6 %   /   0 . 6 9   9 . 8 3 %/ 1 . 2 4   4 3 . 3 8 %   /   0 . 7 1   1 0 . 8 2 % / 1 . 2 7   1 9 1       As  s h o wn   in   T ab le  1 ,   th b est  p er f o r m an ce   is   o b tain e d   wh en   th lear n in g   r ate  is   10 4   f o r   all  co n d itio n s .   T h o p tim al  lear n in g   r ate  f o r   th v alid atio n   d ata   is   al s o   o p tim al  f o r   th test in g   d ata.   Acc o r in g ly ,     th s elec tio n   o f   th lea r n in g   r at b ased   o n   t h v a lid atio n   d ata  i s   q u ite  r ea s o n ab le.   Similar   p e r f o r m an ce   v ar iatio n s   with   th lear n in g   r ate  co u ld   also   b o b s er v ed   f o r   th FNN,   C NN,   an d   R NN.   T h tab le  s h o ws  th at  as   th lear n in g   r ate  d ec r ea s es,  th n u m b er   o f   ep o ch s   f o r   wh ich   we   o b tain   th b est  r esu lts   in cr ea s es.  T h is   is   d u to   th s lo w   Evaluation Warning : The document was created with Spire.PDF for Python.
                    I SS N :   1 6 9 3 - 6 9 3 0   T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l Vo l.  18 ,   No .   5 Octo b e r   2 0 2 0 :    2 5 8 7   -   259 6   2592   co n v er g en ce   o f   th e   weig h p ar am eter s   d u r in g   tr ain in g .   W h en   th lear n in g   r ate   is   10 4 ,   th e p o ch   n u m b er   is   3 3 ,   wh er ea s   it  is   1 9 1   wh en   th lear n in g   r ate  is   10 7 .   T h s lo co n v er g en ce   also   r esu lts   in   p o o r   p er f o r m an ce ,   wh ich   is   r el ated   to   u n d e r f itti n g .     T h v ar iatio n   o f   th l o s s   f u n ctio n   an d   ac cu r ac y   at  th o u tp u o f   th C R NN  d u r in g   tr ai n in g   wh e n     th lear n in g   r ate  v ar ies  f r o m   10 4   to   10 7   is   s h o wn   in   Fig u r 4 .   W h en   th lear n in g   r ate  is   10 4 ,   th lo s s   f u n ctio n   o n   th v alid atio n   d at a   r ea ch es  its   m in im u m   at  ap p r o x im ately   3 0   ep o c h s   ( ex ac t ly   3 3 ) th er af te r ,   it  f lu ctu ates  b u n ev er   d r o p s   b el o th m in im u m .   Ho wev er ,   o n   th tr ain in g   d ata,   th lo s s   f u n ctio n   co n tin u es  to   d ec r ea s th r o u g h o u th d u r ati o n   o f   t h tr ain in g   ( we  s et  th m ax im u m   n u m b er   o f   e p o ch s   to   2 0 0 ) .   As  o v er f itti n g   s h o u ld   b av o i d ed ,   we  s to p   t h iter atio n   at  3 3   ep o c h s   u s in g   th af o r e m en tio n e d   ea r ly   s to p p in g   alg o r ith m .   Me an wh ile,   we  ca n   o b s er v q u ite  d if f er e n ch ar ac ter is tics   wh en   th lea r n in g   r ate  is   10 5 .   T h l o s s   f u n ctio n   o n   th v alid atio n   d ata   d ec r ea s es  f o r   a   s ig n if ican tly   lo n g er   p er i o d   a n d   r ea ch es  its   m in im u m   at  1 5 7 .   T h lo n g er   iter atio n s   ca u s p e r f o r m an ce   d eg r ad atio n   o n   b o th   th e   v alid atio n   an d   test in g   d ata   o win g   t o   u n d er f itti n g .   T h is   p h en o m en o n   b ec o m es m o r m an if est as we   f u r th er   d ec r ea s th lear n in g   r ate.   W h en   th lea r n in g   r ate  is   10 7 th lo s s   f u n ctio n   d o es   n o t   r ea c h   its   m in im u m   u n til  th e   en d   o f   th t r ain in g .   A   s im ilar   tr en d   is   o b s er v e d   w h en   we  m o n ito r   th e   ac cu r ac y   in s tead   o f   th lo s s   f u n ctio n .                       Fig u r 4 .   Var iatio n   o f   l o s s   f u n ctio n   an d   ac c u r ac y   with   lea r n i n g   r ate     ( C R NN  o n   T UT - SED  Sy n th etic  d ataset)       T h p er f o r m an ce   co m p ar is o n   b etwe en   th FNN,   C N N,   R N N ,   an d   C R NN  o n   th T UT - SED   Sy n th etic   d ataset  is   s h o wn   in   T ab le   2 .   T h e   lear n in g   r ate   is   s et  to   10 4   in   all   n etwo r k s   ac co r d in g   t o   th e   p r e v io u s   ex p er im en ts .   T h e v alu taio n   i s   r ep r esen ted   in   b o th   th s eg m en t -   an d   e v en t - b ased   m eth o d s .   As  p r esen ted   in   T ab le  2 ,   th e   C R NN  p er f o r m s   b est  u n d er   all   test i n g   c o n d itio n s .   Alth o u g h   th C NN  h as  ex h ib te d   q u ite  s atis f ac to r y   p er f o r m a n ce   in   im ag class if icatio n ,   it  i s   in f er io r   to   th C R NN   in   s o u n d   ev en d etec tio n   b ec au s C NNs  lack   th ab ilit y   to   m o d el  th tim c o r r elatio n   in f o r m atio n   ( p a r ticu lar ly   l o n g - ter m   c o r r ela tio n )   in   a u d i o   s ig n als.  Ho wev er ,   it  ca n   b o b s er v ed   th at  u s in g   t h R NN  alo n co u ld   n o r esu lt  in   im p r o v ed   p er f o r m an ce s   co m p ar ed   with   t h C NN.   T h is   im p lies   th at  t h tim e - f r eq u e n cy   in v a r ian f ea tu r e   ex tr ac tio n   b y   C NNs  is   h ig h ly   im p o r tan t in   s o u n d   ev en d etec tio n   as is   ca s with   in v ar ian t f ea tu r es in   im ag class if icatio n .   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l         S o u n d   ev en d etec tio n   u s in g   d ee p   n eu r a l n etw o r ks   ( Suk - Hw a n   Ju n g )   2593   T ab le   2 .   Per f o r m an ce   co m p a r is o n   b etwe en   FNN,   C NN,   R N an d   C R NN  o n   T UT - SED  s y n th etic     S e g m e n t - b a se d   Ev e n t - b a s e d     F - sco r e   ER   F - sco r e   ER   F N N   5 4 . 5 7 %   0 . 8   2 1 . 4 5 %   3 . 5 1   C N N   6 0 . 3 8 %   0 . 6 6   3 1 . 3 1 %   1 . 8 7   R N N   4 7 . 2 8 %   0 . 6 6   2 8 . 9 7 %   1 . 3 2   C R N N   6 4 . 2 1 %   0 . 5   4 0 . 5 0 %   0 . 9 6       I n   ad d i t io n   to   T U T - S E D   Sy n t h e t i c ,   w e   in v e s t ig a t ed   t h e   p er f o r m an c e   o f   t h e   n e t wo r k s   u s i n g   T U T   s o u n d   e v e n t s   2 0 1 6 .   T h e   p e r f o r m a n c e   o f   t h C R N N   o n   T U T   s o u n d   e v e n t s   2 0 1 6     f o r   v a r y in g   l e ar n in g   r a t e s   i s   s h o w n   i n   T a b le   3 .   C o n t r ar y   t o   t h e   r e s u l o n   th e   T UT - S E S y n t h e t i c   d a t a s e t   in   T a b l 1 ,   we   c a n   c o n c lu d t h a t   t h e   b e s t   p e r f o r m a n c e   i s   n o w   o b t a i n ed   w i t h   a   le a r n i n g   r a t e   o f   10 3   e x c e p t   wh en   t h e   ev en t - b a s e d   p e r f o r m a n c i s   m e a s u r e d   o n   t h t e s t i n g   d a ta .   T h i s   im p l i e s   t h a th e   o p t im a l   l e ar n in g   r a te   v a r i e s   d e p en d i n g   o n   th t r a in i n g   d a t a s e t .   M o r e o v er ,   t h p e r f o r m a n c o f   t h C R N N   o n   th T U T   s o u n d   ev en t s   2 0 1 6   d a ta s e t w a s   n o t a s   g o o d   a s   t h a t   o n   T U T - S E S y n t h e t i c.   T h i s   m ay   b e   d u t o   t h s m a l l   am o u n t   o f   tr a in i n g   d a t a   an d   t h s c e n e - i n d e p en d e n c l a s s i f i c a t i o n   in   T UT   s o u n d   ev e n t s   2 0 1 6 .   A l th o u g h   th e   n u m b e r   o f   w e ig h p a r a m e t e r s   o f   t h C R N N   o n   T UT   s o u n d   ev en t s   2 0 1 6   w a s   r ed u c e d   b y   a p p r o x i m a te l y   2 0 %   c o m p ar e d   w i t h   t h a o n   T UT - S E D   Sy n th e t i c ,     t h e   p e r f o r m a n c e   d e g r a d a t i o n   c o u ld   n o t   b e   a l l e v i a te d .       T ab le   3 .   Per f o r m an ce   o f   C R NN  o n   T UT   s o u n d   ev e n ts   2 0 1 6   as lea r n in g   r ate  v a r ies     ( b o ld   f ac n u m b er s   r ep r esen t th b est r esu lts )   L e a n i n g   r a t e   V a l i d a t i o n   d a t a   Te st i n g   d a t a   e p o c h   S e g m e n t - b a se d     (F - sco r e / ER )   Ev e n t - b a s e d     (F - sco r e / ER )   S e g m e n t - b a se d     (F - sco r e / ER )   Ev e n t - b a s e d     (F - sco r e / ER )   10 3   5 8 . 6 2 %   /   0 . 7 0   5 . 5 4 %/ 4 . 9 9   3 7 . 1 8 %   /   0 . 9 0   6 . 5 8 %/ 3 . 0 8   2 5 . 5   10 4   5 0 . 7 5 %   /   0 . 7 3   5 . 3 2 %/ 4 . 1 1   3 6 . 4 1 %   /   0 . 8 8   7 . 8 1 %/ 3 . 0 6   8 7 . 5   10 5   1 . 4 4 /   0 . 9 9   0 . 0 0 %/ 1 . 0 5   0 . 2 0 /   1 . 0 0   0 . 0 0 %/ 1 . 0 0   1 8 7 . 8   10 6   9 . 5 9 / 1 0 . 3 4   1 . 1 3 %/ 8 2 . 5 5   5 . 8 8 /   1 . 0 8   1 . 1 5 %/ 1 . 8 5   1 9 9 . 8       T h e   v a r ia t i o n   o f   th e   lo s s   f u n c t i o n   a n d   a cc u r a c y   a t   th e   o u tp u t   o f   t h C R N N   d u r i n g   t r a in i n g   o n   th T U T   s o u n d   e v e n t s   2 0 1 6   d a t as e t   ( a s   t h l e a r n i n g   r a t e   v a r i es   f r o m   10 3   t o   10 6   )   i s   s h o wn   in   F i g u r e   5 .   A   s i m i l a r   t r en d   t o   th a t   in   F i g u r 4   c an   b o b s e r v e d .   H o w ev e r ,   w i t h   t h s a m e   l ea r n in g   r a t e,   th e   l o s s   f u n c t i o n   o n   t r a i n in g   d a t c o n v er g e s   f a s t er   o n   th e   s o u n d   ev e n t s   2 0 1 6   d a t a s e t   th a n   o n   t h e   T U T - S E D   S y n th e t i c   d a t a s e t .   T h i s   i m p l i e s   t h a t   a   s m a l l e r   lea r n in g   r a t e   i s   d e s i r ab l e   f o r   th e   f o r m er   to   p r e v e n t   o v e r f i t t in g .   T h i s   i s   r e f l e c t ed   i n   t h p er f o r m an c e   s co r e s   in   T a b l e   3 ,   wh er e   t h e   b e s t   s co r e s   a r e   o b ta i n ed   w h e n   th e   l ea r n in g   r a t e   i s   10 3   e x c ep t   f o r   o n e   c a s e.   T h e   p e r f o r m a n c e   c o m p ar i s o n   b e t w e en   F N N ,   C N N ,   R N N ,   a n d   C R N N   o n   th e   s o u n d   ev e n t s   2 0 1 6   d a t a s e t   i s   s h o wn   in   T a b le   4 .   T h l e ar n in g   r a te   i s   s e t o   10 3   i n   a l n e t wo r k s   ac c o r d in g   t o   t h r e s u l t s   i n     T a b l e   3 .   T ab l e   4   d em o n s t r a t e   t h a t   t h e   C R N N   p er f o r m s   b e s t   i n   t e r m s   o f   th e   s e g m e n t - b a s ed   F - s c o r e   an d   e r r o r   r a t e .   T h e   C R N N   i s   f o l lo w e d   b y   C N N ,   an d   th e   R N N   i s   t h w o r s t .   T h i s   i s   i n   a c co r d an c e   w i t h   t h e   r e s u l t s   o n     t h e   T UT - S E S y n th e t i d a ta s e t   s h o wn   in   T a b l 2 .   Ho w e v e r ,   r eg a r d i n g   th e v en t - b a s e d   m e t r i c s ,   u n ex p e c t ed   r e s u l t s   c an   b e   o b s e r v ed .   Ne v er t h e l e s s ,   th e   l o w     F - s c o r e   an d   e r r o r   r a t e   in   T a b l 4   i m p ly   th a t   t h e s r e s u l t s   a r n o t   c r ed i b l a n d   an d   m ay   t h e r e f o r e   b e   ig n o r ed .       T ab le   4 .   Per f o r m an ce   co m p a r is o n   b etwe en   FNN,   C NN,   R N an d   C R NN    on  th s o u n d   e v en ts   2 0 1 6   d ata s et     S e g m e n t - b a se d   Ev e n t - b a s e d     F - sco r e   ER   F - sco r e   ER   F N N   2 5 . 1 1 %   1 . 3 2   2 . 4 2 %   9 . 8 1   C N N   3 5 . 2 8 %   0 . 9 8   7 . 5 4 %   4 . 4 9   R N N   2 4 . 3 4 %   1 . 0 2   4 . 2 8 %   2 . 4 8   C R N N   3 7 . 1 8 %   0 . 9 0   6 . 5 8 %   3 . 0 8     Evaluation Warning : The document was created with Spire.PDF for Python.
                    I SS N :   1 6 9 3 - 6 9 3 0   T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l Vo l.  18 ,   No .   5 Octo b e r   2 0 2 0 :    2 5 8 7   -   259 6   2594                 Fig u r 5 .   Var iatio n   o f   l o s s   f u n ctio n   an d   ac c u r ac y   as lea r n in g   r ate  ch an g es     ( C R NN  o n   s o u n d   ev en ts   2 0 1 6 )       4 .   CO NCLUS I O N   D e e p   n e u r a l   n e t w o r k s   h av e   b e e n   w i d e ly   u s e d   in   v a r io u s   a r e a s   o f   p a t t er n   r e co g n i t i o n .   R e c e n t l y ,     i n   s o u n d   ev e n t   d e t e c t io n ,   n u m e r o u s   a p p r o ac h e s   b a s e d   o n   d ee p   n eu r a l   n e t w o r k s   h av e   b e e n   p r o p o s ed   a n d   h av e x h ib t e d   s u p er i o r   p e r f o r m an c e   t o   a m o n g   o t h e r   co n v e n t io n a l   m e th o d s ,   s u c h   a s   G M M s   a n d   S V M s .   I n   t h i s   p a p er ,   we   p r o p o s ed   th e   ap p l ica t i o n   o f   r ep r e s e n t a t iv e   d e ep   n e u r a l n e t wo r k s   t o   t h s o u n d   ev e n t d e t ec t i o n .   W a p p l i ed   an   F N N ,   a   C N N ,   an   R N N ,   a n d   a   C R N N   t o   t wo   in d e p en d e n t   d a t a s e t s   f o r   s o u n d   e v e n d e te c t i o n .   T h r e s u l t   d e m o n s t r a t e d   t h a t h p e r f o r m an c e s   o f   t h e s n e t wo r k s   v a r i ed   s ig n i f i c a n t ly   d e p e n d in g   o n   t h l e ar n in g   r a t e .   T h e   o p t im a l   le a r n i n g   r at e   w a s   s e l ec t e d   b a s ed   o n   th l o s s   f u n c t i o n   o n   t h e   v a l i d a ti o n   d a t a th i s   w a s   c o n f i r m e d   t o   b e   q u i t r e a s o n a b l b a s ed   o n   ex t e n s iv e   e x p e r i m en t a l   r e s u l t s   o n   th t e s t in g   d a ta .     s m a l l   l e a r n in g   r a t e   te n d s   to   u n d e r f i t h n e t w o r k s   t o   t h tr a i n in g   d a t a ,   w h e r e a s   a n   ex c e s s i v e ly   l a r g l e ar n in g   r a t e   r e s u l t s   i n   o v e r f i t t i n g .     I t   w a s   a l s o   d em o n s t r a t ed   t h at   t h e   a m o u n t   o f   tr a in i n g   d a ta   a n d   th e   t y p e   o f   c l a s s e s   c o n s i d e r a b ly   a f f e c te d   t h p er f o r m a n ce   o f   th e   n e t w o r k s .   T h e   p e r f o r m an ce   o n   T UT - S E S y n t h e t i w a s   s i g n if i c an t l y   b e t t er   t h a n   t h a t   o n   s o u n d   e v e n t s   2 0 1 6 ,   t h s i z o f   w h i ch   i s   ap p r o x im a t e l y   o n s e v e n th   th a t o f   T U T - S E D   Sy n th e t i c,   w h i c h   c o n t a i n s   a u d i o   c l a s s e s   t h a t   ar e   d i f f i c u l t o   d i s t in g u i s h .   A l th o u g h   th e   n u m b er   o f   we i g h p ar a m e te r s   o f     t h e   n e t wo r k s   o n   s o u n d   e v en ts   2 0 1 6   w a s   r e d u c ed   b y   2 0 %   t o   c o m p en s a t e   f o r   t h e   s m a ll   a m o u n t   o f   t r a in i n g   d a t a ,   t h p er f o r m an c g ap   w as   q u i t l a r g e .   F i n a l l y ,   th e   C R N N   o u tp e r f o r m e d   th e   o th e r   n e t w o r k s ,   a m o n g   w h ic h   th e   C N N   w a s   t h e   s ec o n d   m o s e f f e c t iv e .   T h e   F N N   an d   R N N   p e r f o r m e d   w o r s e   t h a n   t h C R N N   a n d   C N N .   T h e   p o o r   p er f o r m a n c e   o f   th e   R N N   i m p l i e s   t h a t i m e - f r eq u en c y   in v ar i a n f e a t u r e s   f r o m   t h e   C NN   a r e   h i g h l y   im p o r t an t   in   s o u n d   e v e n d e t e c t io n .     I n   f u t u r e   wo r k ,   w e   w i l l   s tu d y   a   v a r ia n t   o f   th e   C R N N   a r c h i tec t u r e   th a t   ca n   u s e   t h e   c h ar a c t er i s t i c s   o f   th e   R N N   m o r e   ef f ec t i v e ly   b y   c o n s i d er in g   d if f er e n t   m e t h o d s   o f   c o u p l in g   w i t h   th e   C N N .   I n   ad d i t io n ,   t h e   s e g m en t   l en g th   i n   t h e   C R N N   s h o u l d   b e   o p t im i z e d   to   a ch i ev e   th e   ap p r o p r i a te   m e m o r y   l en g th   in   t h e   G R Us .         Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l         S o u n d   ev en d etec tio n   u s in g   d ee p   n eu r a l n etw o r ks   ( Suk - Hw a n   Ju n g )   2595   ACK NO WL E DG M E N T S   T h is   r es ea r ch   was  s u p p o r ted   b y   B asic  Scien ce   R esear ch   Pro g r am   th r o u g h   th Natio n al   R esear ch   Fo u n d atio n   o f   Ko r ea   ( NR F)  f u n d ed   b y   Min is tr y   o f   E d u ca tio n   ( No .   2 0 1 8 R 1 A2 B 6 0 0 9 3 2 8 ) .         RE F E R E NC E S   [ 1 ]   M .   K.  Na n d wa n a ,   A.   Zi a e i,   a n d   J.  H.  L.   Ha n se n ,   Ro b u st  U n su p e rv ise d   De tec ti o n   o f   Hu m a n   S c r e a m In   No isy   Ac o u stic E n v ir o n m e n ts ,”   Pro c e e d in g o th e   I n ter n a ti o n a l   C o n fer e n c e   o n   Aco u stics ,   S p e e c h   a n d   S i g n a Pr o c e ss in g Brisb a n e ,   p p .   1 6 1 - 1 6 5 ,   2 0 1 5 .   [2 ]   M .   Cro c c o ,   M .   C h ristan i,   A.  Tru c c o ,   a n d   V.   M u r in o ,   Au d io   S u r v e il lan c e S y ste m a ti c   Re v iew ,   ACM   Co mp u ti n g   S u rv e y s,   v o l .   4 8 ,   n o .   4 ,   p p .   1 - 4 6 ,   2 0 1 6 .   [3 ]   J.  S a lam o n   a n d   J.  P .   Be ll o ,   F e a tu re   Lea rn in g   wit h   De e p   S c a tt e rin g   fo Urb a n   S o u n d   An a l y sis,”   23 rd   Eu ro p e a n   S i g n a Pro c e ss in g   Co n fer e n c e   (EUS IPC O) p p .   7 2 4 - 7 2 8 ,   2 0 1 5 .   [4 ]   Y.  Wan g ,   L .   Ne v e s,  a n d   F .   M e tze ,   Au d io - b a se d   M u lt ime d ia  Ev e n De tec ti o n   Us i n g   De e p   R e c u rre n Ne u ra Ne two rk s,”   IEE I n ter n a ti o n a l   Co n fer e n c e   o n   Aco u stics ,   S p e e c h   a n d   S i g n a Pro c e ss in g   (ICA S S P).   S h a n g h a i,     p p .   2 7 4 2 - 2 7 4 6 ,   2 0 1 6 .   [5 ]   F .   Brig g s,  B.   Lak sh m i n a ra y a n a n ,   L.   Ne a l,   X.   Z.   F e rn ,   R.   Ra ich ,   S .   J.  K.  Ha d ley ,   A.   S .   Ha d le y ,   a n d   M .   G .   Be tt s,  Ac o u stic  Clas sifica ti o n   o M u lt ip le  S im u lt a n e o u Bir d   S p e c i e s:  M u lt i - i n sta n c e   M u lt i - Lab e Ap p ro a c h ,     T h e   J o u r n a l   o f   th e   Ac o u stica S o c iety   o Ame ric a ,   v o l .   1 3 1 ,   n o .   6 ,   p p .   4 6 4 0 - 4 6 4 0 ,   2 0 1 2 .   [6 ]   S .   Nta lam p iras ,   e a l. ,   " On   Ac o u stic  S u rv e i ll a n c e   o Ha z a rd o u s   S it u a ti o n s , "   IE EE   In ter n a ti o n a l   Co n fer e n c e   o n   Aco u stics ,   S p e e c h   a n d   S i g n a Pr o c e ss in g   (ICAS S P),   p p .   1 6 5 - 1 6 8 ,   2 0 0 9 .   [7 ]   A.  M e sa ro s,  T.   He it to la,   a n d   T .   Virtan e n ,   TUT   Da tab a se   fo r   Ac o u stic  S c e n e   Clas sifica ti o n   a n d   S o u n d   Ev e n De tec ti o n ,”   24 th   Eu r o p e a n   S ig n a l   Pro c e ss in g   C o n fer e n c e   (EUS IPC O).   Bu d a p e st,   p p .   1 1 2 8 - 1 1 3 2 ,   2 0 1 6 .   [8 ]   D.  S to we ll ,   D.  G ian n o u li s,   E.   Be n e to s,  M .   Lag ra n g e ,   a n d   M .   D.  P lu m b ley ,   De tec ti o n   a n d   Clas sifica ti o n   o Ac o u stic   S c e n e s a n d   E v e n ts,”   IEE T ra n s.  On   M u lt ime d i a ,   vol .   1 7 ,   n o .   1 0 ,   p p .   1 7 3 3 - 1 7 4 6 ,   2 0 1 5 .   [9 ]   A.  M e sa ro s,   T.   He it to la,   A.   Dim e n t,   B .   E li z a ld e ,   A.  S h a h ,   E.   Vi n c e n t,   B.   Ra j ,   a n d   T.   Virtan e n ,   DCA S 2 0 1 7   Ch a ll e n e g   S e tu p Tas k s,   Da tas e ts  a n d   Ba se li n e   S y ste m ,   Pro c e e d in g o f   t h e   De tec ti o n   a n d   Cla ss if ic a ti o n   o f   Aco u stic   S c e n e s a n d   Eve n ts  2 0 1 7   W o rk sh o p   (DCAS E   2 0 1 7 ).   M u n ich ,   p p .   1 1 2 3 - 1 1 2 7 ,   2 0 1 7 .   [1 0 ]   G .   De k k e rs,  e a l. ,   DCA S 2 0 1 8   c h a ll e n g e - Tas k   5 :   M o n it o ri n g   o Do m e stic  Ac ti v it ies   b a se d   o n   M u lt i - c h a n n e Ac o u stics ,   KU   L e u v e n ,   T e c h .   Re p . ,   J u ly   2 0 1 8 .   [1 1 ]   N.  Tu rp a u lt ,   R.   S e rize l,   A.  S h a h   a n d   J.  S a lam o n ,   S o u n d   Ev e n De tec ti o n   in   D o m e stic  En v ir o n e m e n t with   Wea k ly   Lab e led   Da ta  a n d   S o u n d sc a p e   S y n th e sis,”   W o rk sh o p   o n   De tec ti o n   a n d   Cl a ss if ica ti o n   o Ac o u stic   S c e n e a n d   Eve n ts Ne w Yo rk   Cit y ,   Un it e d   S tate s,  2 0 1 9 .   [1 2 ]   E.   Ca k ir,   G .   P a ra sc a n d o l o ,   T .   He it to la,  H.  H u tt u n e n ,   a n d   T.   Virtan e n ,   Co n v o l u ti o n a Re c u rre n t   Ne u ra Ne two rk fo r   P o ly p h o n ic  S o u n d   Ev e n De tec ti o n ,   IEE E/ ACM   T r a n s.   On   Au d i o   S p e e c h   a n d   L a n g u a g e   Pro c e ss in g ,   v o l.   2 6 ,   n o .   6,   p p .   1 2 9 1 - 1 3 0 3 ,   2 0 1 7 .   [1 3 ]   J.  J.  Au c o u t u rier,  B .   De fre v il le,   a n d   F .   P a c h e t,   T h e   Ba g - of - F r a m e Ap p ro a c h   t o   A u d i o   P a t tern   Re c o g n it i o n :     S u fficie n M o d e f o Urb a n   S o u n d sc a p e b u N o fo P o l y p h o n ic  m u sic ,   J o u rn a o t h e   Aco u stica S o c iety   o f   Ame ric a ,   v o l.   1 2 2 ,   n o .   2 ,   p p .   8 8 1 - 8 9 1 ,   2 0 0 7 .   [1 4 ]   C.   C.   Ch a n g ,   C.   J .   Li n ,   LIBS V M A   Li b ra r y   f o S u p p o rt  Ve c to M a c h i n e s,”   ACM   T ra n sa c ti o n s   o n   I n telli g e n t   S y ste ms   a n d   T e c h n o lo g y ,   v o l.   2 ,   n o .   3 ,   p p .   1 - 2 7 ,   2 0 1 1 .   [1 5 ]   D.  D.  LE E,   a n d   H.  S .   S e u n g ,   Lea rn in g   th e   P a rts  o O b jec ts  b y   No n - n e g a ti v e   M a tri x   F a c to riza ti o n ,   N a tu re ,   v o l.   4 0 1 ,   p p .   7 8 8 - 7 9 1 ,   1 9 9 5 .   [1 6 ]   A.  Kriz h e v sk y ,   I.   S u tsk e v e r,   a n d   G .   E.   Hin to n ,   Im a g e n e Clas sifica ti o n   wit h   De e p   Co n v o lu t io n a Ne u ra Ne two rk s,”   Ad v a n c e s i n   Ne u ra l   In f o rm a ti o n   Pro c e ss in g   S y ste ms ,   p p .   1 0 9 7 - 1 1 0 5 ,   2 0 1 2 .   [1 7 ]   G ra v e s,  A.  M o h a m e d ,   a n d   G .   E.   Hin to n ,   S p e e c h   Re c o g n it io n   wit h   De e p   Re c u rre n Ne u ra Ne two r k s ,”   Pro c e e d i n g s   o t h e   IEE I n t.   Co n f.   o n   Aco u sti c s S p e e c h   a n d   S i g n a Pro c e ss in g   (ICAS S P) ,   p p .   6 6 4 5 - 6 6 4 9 ,   2 0 1 3 .     [1 8 ]   K.  Ch o ,   B.   Va n   M e rrien b o e r,   C .   G u lce h re ,   D.  Ba h d a n a u ,   F .   B o u g a re s,  H.  S c h we n k ,   a n d   Y.  Be n g i o ,   Lea rn in g   P h ra se   Re p re se n tatio n Us in g   R n n   En c o d e r - De c o d e fo S tatisti c a M a c h i n e   Tran sla ti o n ,”   Pro c e e d in g o t h e   2 0 1 4   Co n f.   o n   Em p irica l   M e th o d in   N a tu r a L a n g u a g e   Pr o c e ss in g   (E M NL P) ,   p p .   1 7 2 4 - 1 7 3 4 ,   2 0 1 4 .   [1 9 ]   D.  Ba h d a n a u ,   J.  Ch o ro ws k i,   D.  S e rd y u k ,   P .   Bra k e a n d   Y.  Be n g io ,   " En d - to - e n d   Atten ti o n - b a se d   Lar g e   Vo c a b u lary   S p e e c h   Re c o g n it io n , "   IEE E   In te rn a ti o n a Co n fer e n c e   o n   Aco u stics ,   S p e e c h   a n d   S i g n a Pr o c e ss in g   (IC AS S P)   p p .   4 9 4 5 - 4 9 4 9 2 0 1 6 .   [2 0 ]   V.  M n ih ,   N.  He e ss ,   A.  G ra v e s ,   e a l. ,   Re c u rre n M o d e ls  o Vis u a Atten ti o n ,   Ad v a n c e in   Ne u ra In f o rm a ti o n   Pro c e ss in g   S y ste ms ,   p p .   2 2 0 4 - 2 2 1 2 2 0 1 4 .   [2 1 ]   T.   N.  S a i n a th ,   O.  Vin y a ls,  A.  S e n io r,   a n d   H.   S a k ,   Co n v o l u ti o n a l,   Lo n g   S h o rt - term   M e m o ry ,   F u l ly   Co n n e c ted   De e p   Ne u ra Ne two rk s ,   Pr o c e e d in g o th e   2 0 1 5   I EE I n t.   C o n f.   o n   Ac o u stics ,   S p e e c h   a n d   S i g n a Pro c e ss in g   (ICA S S P) ,   Brisb a n e ,   p p .   4 5 8 0 - 4 5 8 4 ,   2 0 1 5 .   [ 2 2 ]   K .   C h o i ,   G .   F a z e k a s ,   M .   S a n d l e r ,   K .   C h o ,   C o n v o l u t i o n a l   R e c u r r e n t   N e u r a l   N e t w o r k s   f o r   M u s i c   C l a s s i f i c a t i o n ,   P r o c e e d i n g s   o f   t h e   2 0 1 7   I E E E   I n t .   C o n f .   o n   A c o u s t i c s ,   S p e e c h   a n d   S i g n a l   P r o c e s s i n g   ( I C A S S P ) ,   p p .   2 3 9 2 - 2 3 9 6 ,   2 0 1 7 .   [2 3 ]   S .   H.  J u n g ,   Y.   J.  C h u n g ,   Au d io   Ev e n t   De tec ti o n   Us in g   CNN   a n d   CRNN ,”   Pro c e e d in g o t h e   7 th   In ter n a ti o n a l   Co n fer e n c e   o n   Ne x Ge n e ra ti o n   Co mp u ter   a n d   In fo rm a t io n   T e c h n o lo g y ,   Ho k k a i d o ,   p p .   1 3 4 - 1 3 7 ,   2 0 1 8 .   [2 4 ]   R.   Ha rb F .   P e r n k o p f,   S o u n d   E v e n De tec ti o n   Us in g   Wea k ly   Lab e led   S e m i - su p e rv ise d   Da ta  with   G CRN Ns ,   VA T   a n d   S e lf - a d a p t iv e   Lab e Re fin e m e n t,   W o rk sh o p   o n   De tec ti o n   a n d   Cla ss if ica ti o n   o Ac o u stic  S c e n e a n d   Eve n ts S u rre y ,   UK ,   Oc t.   2 0 1 8 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                    I SS N :   1 6 9 3 - 6 9 3 0   T E L KOM NI KA   T elec o m m u n   C o m p u t E l Co n tr o l Vo l.  18 ,   No .   5 Octo b e r   2 0 2 0 :    2 5 8 7   -   259 6   2596   [2 5 ]   A.  M e sa ro s,   T.   He it to la,   a n d   T.   Vi rtan e n ,   M e tri c fo r   P o ly p h o n ic  S o u n d   Ev e n De tec ti o n ,   Ap p li e d   S c ien c e s ,   v o l .   6 n o .   6 ,   p p .   1 6 2 - 1 7 8 ,   2 0 1 6 .       B I O G RAP H I E S O F   AUTH O RS        S u k wha n   J u n g   re c e iv e d   h is  B. S c .   a n d   M . S c .   De g re e   in   El e c tro n ics   En g i n e e rin g   fr o m   Ke imy u n g   Un iv e rsity ,   Da e g u ,   S o u th   K o re a   in   2 0 1 6   a n d   2 0 1 8 ,   re sp e c ti v e l y .   He   h a b e e n   wit h   S a m j u   El e c tro in c Co .   si n c e   M a rc h   2 0 1 8 .   His  m a in   re se a rc h   in tere sts  a r e   a u d io   e v e n d e tec ti o n   u n d e n o isy   e n v iro n m e n ts an d   d e e p   lea r n in g   fo r   a rti ficia i n telli g e n c e .         Yo n g j o o   Chu n g   re c e iv e d   h is   B . S c .   d e g re e   in   El e c tro n ics   E n g i n e e rin g   fro m   S e o u l   Na ti o n a l   Un iv e rsity ,   S e o u l,   S o u th   K o re a   in   1 9 8 8 .   He   e a rn e d   h is  M . S c .   a n d   P h d e g re e   in   El e c tri c a a n d   El e c tro n ics   En g in e e rin g   fro m   Ko re a   Ad v a n c e d   S c ien c e   a n d   Tec h n o lo g y ,   Da e jo n ,   S o u t h   Ko re a n   in   1 9 9 5 .   He   is  c u rre n tl y   a   P ro fe ss o with   th e   De p a rtme n o E lec tro n ics   En g i n e e rin g   a Ke imy u n g   Un iv e rsity ,   Da e g u ,   S .   Ko re a .   His   re se a rc h   in tere sts  a re   in   t h e   a re a o sp e e c h   re c o g n i ti o n ,   a u d i o   e v e n d e tec ti o n ,   m a c h i n e   lea rn in g   a n d   p a tt e rn   re c o g n it io n .     Evaluation Warning : The document was created with Spire.PDF for Python.