I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m pu t er   Science   Vo l.   3 7 ,   No .   3 Ma r ch   20 2 5 ,   p p .   1 85 6 ~ 1 86 4   I SS N:  2 502 - 4 7 52 ,   DOI : 1 0 . 1 1 5 9 1 /ijee cs .v 3 7 . i 3 . pp 1 85 6 - 1 86 4           1856     J o ur na l ho m ep a g e h ttp : //ij ee cs . ia esco r e. co m   Co nception o f  spe ech emotio reco g nition metho ds:   a  review       Abdelk a der  B enzira r 1 M o h a m ed  H a m idi 2 ,   M o un ce f   F ila li B o ua m i 1   1 La b o r a t o r y   o f   A p p l i e d   M a t h e m a t i c s   a n d   I n f o r ma t i o n   S y st e ms,  M u l t i d i s c i p l i n a r y   F a c u l t y   o f   N a d o r ,   M o h a mm e d   P r e mi e r   U n i v e r s i t y ,   O u j d a ,   M o r o c c o   2 Te a m   o f   M o d e l i n g   a n d   S c i e n t i f i c   C o mp u t i n g ,   M u l t i d i s c i p l i n a r y   F a c u l t y   o f   N a d o r ,   M o h a mm e d   P r e mi e r   U n i v e r si t y ,   O u j d a ,   M o r o c c o       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Ap r   8 ,   2 0 2 4   R ev is ed   Oct   2 202 4   Acc ep ted   Oct   7 ,   2 0 2 4       In   re c e n y e a rs,  sp e e c h   e m o ti o n   r e c o g n it i o n   ( S ER)  h a e m e rg e d   a a   p iv o tal   to o l   f o u n d e rsta n d i n g   a n d   e n h a n c in g   h u m a n - c o m p u ter  in tera c ti o n   (HCI),   th u g a r n e rin g   si g n if ica n a tt e n ti o n   fro m   re se a rc h e rs  d u e   to   it d iv e rse   ra n g e   o a p p li c a ti o n s.  Ho we v e r,   S ER   sy ste m e n c o u n ter  n u m e ro u s   c h a ll e n g e s ,   p a rti c u larly   c o n c e rn i n g   th e   se lec ti o n   o a p p r o p riate   fe a tu re a n d   c las sifiers   fo e m o ti o n   re c o g n it i o n .   T h is  p a p e p ro v i d e a   c o n c ise   su rv e y   o th e   field   o f   sp e e c h   e m o ti o n   re c o g n it i o n ,   e lu c id a ti n g   it c las sifica ti o n   a lg o rit h m a n d   v a rio u fe a tu re   e x trac ti o n   t e c h n iq u e a c ro ss   m u lt ip le  lan g u a g e s .   Ad d it i o n a ll y ,   it   e x p l o re th e   li m it a ti o n a n d   we a k n e ss e in h e re n in   sp e e c h   e m o ti o n   re c o g n i ti o n   sy ste m s.  F u r th e rm o re ,   th e   p a p e e n d e a v o rs t o   c a teg o rize   re c e n re se a r c h   e n d e a v o rs  in   Ara b ic  sp e e c h   e m o ti o n   re c o g n it i o n ,   e m p lo y i n g   d iv e rse   m o d e li n g   a p p r o a c h e s a n d   e x trac ti o n   m e th o d s.   K ey w o r d s :   Ar ab ic  s p ee ch   em o tio n   r ec o g n itio n   C las s if icatio n   alg o r ith m s   Featu r ex tr ac tio n   tech n iq u es   Hu m an - co m p u ter   i n ter ac tio n   Sp ee ch   em o tio n   r ec o g n itio n   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Mo h am ed   Ham id i   T ea m   o f   Mo d elin g   a n d   Scien ti f ic  C o m p u tin g ,   Mu ltid is cip lin ar y   Facu lty   o f   Nad or   Mo h am m ed   Pre m ier   Un iv er s it y     Ou jd a,   Mo r o cc o   E m ail: m . h am id i @u m p . ac . m a       1.   I NT RO D UCT I O N   R ec o g n izin g   em o tio n s   ca n   b ac co m p lis h ed   th r o u g h   v ar i o u s   m o d alities ,   en co m p ass in g   tex an d   s p ee ch .   T ex e m o tio n   r ec o g n itio n   ( T E R )   is   a   s p ec ialized   r esear ch   d o m ai n   ce n ter e d   o n   id e n tify in g   an d   ca teg o r izin g   em o tio n s   c o n v e y ed   th r o u g h   wr itten   c o m m u n icatio n ,   in clu d in g   s o cial  m ed ia   p o s ts   [ 1 ] .   Sp ee ch   em o tio n   r e co g n itio n   ( SER)  i s   an   in ter d is cip lin ar y   f ield   a im ed   at  au to m atica lly   d etec ti n g   an d   class if y in g   em o tio n s   f r o m   s p ee ch ,   with   ap p licatio n s   in   ar ea s   lik h u m an - c o m p u ter   in ter ac tio n   ( HC I ) ,   h ea lth ca r e,   ed u ca tio n ,   an d   en ter tain m e n t.   SER  s y s tem s   g en er ally   co n s is o f   th r ee   m ain   s tep s p r e p r o ce s s in g ,   f ea t u r ex tr ac tio n ,   a n d   class if icatio n .   Pre p r o ce s s in g   en h a n ce s   s p ee c h   q u ality   a n d   s eg m e n ts   it  in to   m an ag ea b le   u n its .   Featu r ex tr ac tio n   id en tifie s   k ey   ac o u s tic,   p r o s o d ic,   a n d   lin g u is tic  elem en ts   th at  co n v ey   em o tio n .   C las s if icatio n   u s es  alg o r ith m s   to   lab el  em o tio n s   b ased   o n   th ese  f ea tu r es.  SER  i s   ch a llen g in g   d u to   th e   co m p lex ity   o f   h u m an   em o tio n s   an d   v ar iab ilit y   in   s p ee c h   ac r o s s   s p ea k er s ,   lan g u ag es,  an d   co n tex ts ,   r eq u i r in g   ca r ef u d esig n   an d   o p tim izatio n   f o r   ac c u r ate  r esu lts   [ 2 ] .   I n   1 9 9 7 ,   r esear c h er s   cr ea ted   th d an is h   em o tio n al   s p ee c h   ( DE S)  d atab ase,   co n ta in in g   r ec o r d in g s   o f   two   m en   an d   two   wo m en   ex p r ess in g   f iv em o tio n s ,   wh ich   wer ev alu ated   b y   twen ty   lis ten er s   to   id en tify   th e   em o tio n s   [ 3 ] .   2 0 0 1   s tu d y   o n   em o tio n   r ec o g n itio n   u s ed   th Sp an is h   I E SS DB   co r p u s   an d   th R AM SES   en g in e,   lev er ag in g   s em i - co n tin u o u s   h id d en   m ar k o v   m o d els   ( HM Ms)   an d   lo w - lev el  f ea t u r es  f o r   an aly s is   [ 4 ] .   I n   2 0 0 5 ,   a   s tu d y   ap p lie d   two   class if icatio n   m eth o d s ,   HM an d   s u p p o r v ec t o r   m ac h in es  ( SVM) ,   to   class if y   f iv em o tio n s   f r o m   t h DE d atab ase.   Featu r es  in clu d ed   f u n d am e n tal  f r e q u en c y ,   e n er g y ,   f o r m an t   f r eq u en cies,  m el - f r eq u en cy   ce p s tr al  co e f f icien ts   ( MFC C s ) ,   an d   m el   f r eq u e n cy   s u b - b an d   e n er g ies,   ac h i ev in g   n o tab le  r ec o g n itio n   r ates   [ 5 ] .   I n   2 0 0 7 ,   r esear ch er s   d elv ed   in to   th e   d o m ain   o f   h u m an - r o b o in ter a ctio n   ( HR I )   b y   d ev el o p in g   an   in tellig en r o b o ca p a b le  o f   c o m p r eh e n d in g   a nd  Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52         C o n ce p tio n   o f sp ee c h   emo tio n   r ec o g n itio n   meth o d s :   a   r ev iew   ( A b d elka d er B en z ir a r )   1857   r esp o n d in g   to   h u m an   em o tio n s   [ 6 ] .   s ig n if ican b r ea k t h r o u g h   in   em o tio n   r ec o g n itio n   ca m in   2 0 1 3   with   th u s o f   d ee p   b elief   n etwo r k s   ( DB N)   to   ex tr ac u n s u p er v is ed   au d io - v is u al  f ea tu r es  f o r   e m o tio n   class if icatio n .   T h f ield   a d v an ce d   f u r th er   in   2 0 1 7 ,   wh e n   d ee p   n eu r al  n et wo r k s   ( DNN)   wer c o m b i n ed   with   v o ice   ac tiv ity   d etec tio n   ( VAD)   to   ef f icien tl y   r em o v s ilen s eg m en ts   f r o m   s p ee ch   s ig n als,  en h an cin g   r ec o g n itio n   ac cu r ac y   [ 7 ] [ 8 ].   I n   2 0 1 9 ,   r esear ch er s   co m b in ed   b id ir ec tio n al  lo n g - s h o r ter m   m em o r y   ( B i L STM )   with   VAD  an d   a n   atten tio n   m o d el  to   f ilter   o u s il en ce   an d   n o n - em o tio n al   p ar ts   o f   s p ee ch ,   im p r o v in g   f o cu s   o n   em o tio n al   co n te n t   [ 9 ] .   I n   2 0 2 2 ,   Atm aja  an d   Sas o u   [ 1 0 ]   ap p lied   f o u r   d ata  au g m en tatio n   tech n iq u es   g lo ttal  s o u r ce   ex tr ac tio n ,   s ilen ce   r em o v al,   im p u ls r es p o n s c o n v o lu tio n ,   an d   n o is ad d itio n   o n   J T E S   an d   I M OC AP  d atab ases ,   s h o win g   th at  co m b in in g   th ese  m eth o d s   im p r o v ed   s p ee c h   em o tio n   r ec o g n itio n   p er f o r m an ce .   T h ey   also   ex p lo r ed   s elf - s u p e r v is ed   lear n in g   ( SS L )   f o r   tr ain i n g   m o d els  with o u ex ter n al  lab els  [ 1 1 ] .   I n   2 0 2 3 ,   th e   wav 2 v ec   2 . 0   m o d el  was  im p lem en ted   o n   th I talian   "E m o zio n alm en te"  d ata b ase,   o u tp er f o r m i n g   h u m an   a c c u r a c y   i n   v o c a l   e m o t i o n   r e c o g n i t i o n   a n d   d e m o n s t r a t i n g   p o t e n t i a l   f o r   i n t e g r a t i o n   i n t o   c o n v e r s a t i o n a l   a g e n t s   [ 1 2 ] .   I n   ad d itio n   to   wav 2 v ec   2 . 0 ,   m o d els  lik YAM n et  an d   VGGish   h av b ee n   u s ed   f o r   s p ee ch   em o tio n   r ec o g n itio n ,   b u s p ee ch   SS L   P T em b ed d in g s   s h o wed   s u p e r io r   p e r f o r m an ce .   N o tab ly ,   x - v ec to r   em b ed d in g s   co m b in ed   with   ex tr e m g r ad i en b o o s tin g   ( XGBo o s t )   o u tp er f o r m e d   o th er   m o d els,  in clu d in g   wav 2 v ec   2 . 0 ,   u n is p ee ch - SAT,   wav L M,   a n d   E C APA  [ 1 3 ] ,   [ 1 4 ] .   T h is   s tu d y   in v esti g ates  th f ield   o f   S E R   ac r o s s   m u ltip le  lan g u ag es,  f o c u s in g   o n   th u s o f   v ar io u s   class if icatio n   alg o r ith m s .   W h ile  ea r lier   s tu d ies   h av ex p lo r e d   th e   im p ac o f   tr ad itio n al  m ac h in lear n in g   m o d els  lik SVM  an d   HM o n   SER,  th ey   h av n o ex p licitly   ad d r ess ed   th e   ch allen g es   o f   ap p ly in g   th ese  m o d els  ac r o s s   d iv er s e   lin g u is tic  co n tex ts ,   p ar ticu lar ly   i n   less - s tu d ied   lan g u ag es  s u ch   as  Am az ig h   an d   Ar a b ic.   Fu r th er m o r e,   m an y   ex is tin g   s tu d ies  f o c u s   p r ed o m i n an tly   o n   well - r ep r esen ted   lan g u ag es,  o f ten   n e g lectin g   t h p e r f o r m an ce   an d   ad ap ta b ilit y   o f   SER  s y s tem s   in   th ese  u n d er r ep r esen ted   lan g u ag es.  B y   r ev iewin g   th ev o lu tio n   o f   f ea tu r ex tr ac tio n   tech n iq u e s   an d   th s h if f r o m   b asic  to o ls   to   ad v an ce d   d ee p   lear n in g   class if ier s ,   th is   p ap er   s ee k s   to   f ill  th ese  g ap s ,   o f f er in g   n ew  in s ig h ts   in to   th p er f o r m an ce   a n d   c r o s s - lin g u is tic  ad ap tab ilit y   o f   SER s y s tem s .     T h r em ain d er   o f   th is   p ap er   i s   s tr u ctu r ed   as  f o llo ws:   s ec tio n   2   d elv es  in to   r elate d   wo r k s ,   p r o v id in g   an   o v er v iew  o f   ex is tin g   r esea r ch   in   th f ield .   Sectio n   3   o f f er s   co m p r eh e n s iv o v er v ie o f   s p ee ch   em o tio n   r ec o g n itio n .   I n   s ec tio n   4 ,   v ar i o u s   ap p r o ac h es  to   s p ee ch   em o tio n   r ec o g n itio n   ar d is cu s s ed   in   d etail.   Sectio n   5   h ig h lig h ts   th e   lim itatio n s   an d   wea k n ess es  in h er e n in   s p ee ch   em o tio n   r ec o g n itio n .   Sectio n   6   f o cu s es   s p ec if ically   o n   s tu d ies  co n d u cted   in   Ar ab ic  s p ee ch   em o tio n   r ec o g n itio n .   Sectio n   7   p r esen ts   th r esu lts   an d   d is cu s s io n   o f   th d if f er en t stu d ies th at  we  m en tio n ed   b ef o r e .   Fin ally ,   th p a p er   en d s   with   co n clu s io n .       2.   RE L AT E WO RK S   s tu d y   co n d u cted   b y   No g u ei r as  et  a l.   [ 4 ]   u tili ze d   th HM in   co n ju n ctio n   with   p itch   a n d   en er g y   f ea tu r es  to   class if y   s ev en   em o tio n al  s tates:  an g er ,   d is g u s t,  f ea r ,   j o y ,   s ad n ess ,   s u r p r is e,   an d   n e u tr ality .   T h e   f in d in g s   r ev ea led   th at  u s in g   i n s tan tan eo u s   p itch   led   to   o v er   8 0 ac c u r ac y   in   s p ee c h   em o tio n   r ec o g n itio n .   I n   an o th er   s tu d y ,   L in   et  a l.   [ 5 ]   ap p lied   HM a n d   SVM  class if ier s   with   f ea tu r es  lik e   f u n d am en tal  f r e q u en c y ,   f o r m an f r eq u e n cies,  MFC C s ,   an d   m el  s u b - b an d   en er g ies,  alo n g s id s eq u en tial  f o r war d   s elec tio n   ( SF S)  f o r   f ea tu r o p tim izatio n .   T h HM class if ier   ac h iev ed   im p r ess iv r ec o g n itio n   r ates,  r ea ch in g   9 8 . 9 f o r   f em ale   s u b jects,  1 0 0 % f o r   m ales,  an d   9 9 . 5 % f o r   g en d er - in d ep en d en t   ca s es.   Har ár   et  a l.   [ 8 ]   u s ed   DNN  with   VAD  to   r ec o g n ize   th r ee   em o tio n al  s t ates   an g r y ,   s ad ,   an d   n e u tr al   in   t h E m o - DB   d ataset,   ac h iev in g   9 6 . 9 7 r ec o g n itio n   r ate.   C atan ia  [ 1 2 ]   ap p lied   th wav 2 v ec   2 . 0   m o d el  to   th I talian   E m o zio n alm en te  d atab ase,   ac h iev in g   8 3 ac cu r ac y   i n   s p ea k er - d ep en d en ca s es  an d   8 1 in   s p ea k er - in d e p en d e n c ases ,   o u tp er f o r m i n g   r esu lts   f r o m   th E m o v o   d atas et.   Ph u k an   et  a l.   [ 1 4 ]   c o m p a r ed   eig h p r e - tr ain ed   m o d els,  i n clu d in g   wa v 2 v ec   2 . 0 ,   x - v ec to r ,   an d   E C APA,   u s in g   XGBo o s t,  r an d o m   f o r est   ( R F) ,   an d   f u lly   co n v o lu tio n al  n etwo r k   ( FC N)   ac r o s s   d atab ases   lik C R E MA - D,   T E SS ,   SAVE E ,   a n d   E m o - DB ,   with   s p ea k er   r ec o g n i tio n   m o d els  s h o win g   th b est  p er f o r m an ce .   Hu a n g   et  a l.   [ 1 5 ]   ex p l o r ed   s em i - co n v o lu tio n al  n eu r al  n etwo r k s   ( C NNs )   in   u n s u p er v is ed   a n d   s em i - s u p er v is ed   s ettin g s ,   u s in g   an   o b je ctiv f u n ctio n   to   lear n   af f ec t - r elev an f ea tu r es,  wh ich   s ig n if ican tly   o u tp er f o r m ed   n o n - d is cr im in ativ o n es  ac r o s s   f o u r   d ata b ases .   Asg h ar   et  a l.   [ 1 6 ]   d ev el o p ed   an   Ur d u   em o tio n   d atab ase,   ap p ly in g   K - n ea r est  n eig h b o r   ( K NN ) ,   SVM,   an d   R cla s s if ier s   with   f ea tu r es  l ik MFC C ,   lin e ar   p r ed icti o n   c o e f f ic ie n ts   ( L PC ) ,   an d   e n er g y ,   i m p r o v i n g   ac cu r ac y   f r o m   6 6 . 5 to   7 6 . 5 af ter   ex clu d in g   d is g u s t.  Xia  an d   Z h ao   [ 1 7 ]   u s ed   C NN - B i L STM   with   an   atten tio n   m o d el  an d   3 MFC C   f ea tu r es ,   ac h iev in g   6 ac cu r ac y   b o o s t.  Atm aja  an d   Sas o u   [ 1 8 ]   em p lo y ed   late  f u s io n   o f   n in p r e - tr ain ed   m o d els  to   r ec o g n ize  s h ar ed   em o tio n s   f r o m   m u ltil in g u al  s p ee ch   ( E n g lis h   an d   Sp an is h ) ,   ac h ie v in g   t o p   Sp ea r m an   s co r e   o f   0 . 5 3 7   with   SVM  class if icat io n Ph am   et  a l.   [ 1 9 ]   p r o p o s ed   h y b r id   d ata  a u g m e n tatio n   ap p r o ac h   co m b in e d   with   g en er ativ e   ad v er s ar ial  n e two r k s   ( GANs)   f o r   em o tio n   r ec o g n itio n   o n   th e   E m o - DB   d a taset.  T h ey   u tili ze d   3 lo g   m el - s p ec tr o g r am   f ea t u r es  with   an   ADCR NN  m o d el,   ac h iev in g   8 7 . 1 2 ac cu r a cy   with   tr a d itio n al   m eth o d s   an d   8 8 . 4 7 with   G ANs.  Z h an g   et  a l.   [ 2 0 ]   in tr o d u ce d   a   ca p s u le  n etwo r k   ( C a p s Net)   ap p r o ac h   f o r   SER,  en h an ce d   b y   d ata  au g m en tatio n ,   ac h iev in g   9 1 . 6 7 ac cu r ac y ,   wh ich   in cr ea s ed   to   9 3 . 3 3 wh en   d ata   au g m en tatio n   was a p p lied ,   ef f ec tiv ely   ad d r ess in g   d ee p   lear n in g   ch allen g es a n d   d ata  s ca r cit y .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   In d o n esian   J   E lec   E n g   &   C o m p   Sci Vo l.  3 7 ,   No .   3 Ma r ch   20 2 5 :   1 85 6 - 1 86 4   1858   3.   SPEE CH   E M O T I O R E C O G NIT I O N   3 . 1 .     Sp ee ch  em o t io n r ec o g ni t io s y s t em   a rc hite ct ure   T h SER  task   in v o lv es  s p e ec h   p r o ce s s in g   an d   c o m p u tatio n al  p ar alin g u is tic  an aly s is   with   th e   o b jectiv o f   id en tif y in g   an d   ca teg o r izin g   em o tio n s   co n v e y ed   in   s p o k en   la n g u a g e.   Fig u r 1   illu s tr ates  th v ar io u s   p h ases   in v o lv e d   in   s p ee ch   em o tio n   r ec o g n itio n .   W h er e,   p r e - p r o ce s s in g in v o l v es  s tan d ar d izin g   th e   v o lu m an d   in ten s ity   o f   v o c al  s ig n als.  Featu r ex tr ac tio n co n s is ts   o f   th ex tr ac tio n   o f   f ea tu r es  s u ch   as  MFC C ,   L PC   an d   lin ea r   p r ed i ctio n   ce p s tr al  co ef f icien ts   ( L PC C ) .   T r ain in g th m o d el  is   tr ain ed   o n   lar g e   d ataset  o f   lab eled   em o tio n al  s tates  lik h ap p y ,   an g r y ,   an d   s u r p r is ed .   I n   th is   s tep ,   th m o d el  lear n s   to   ass o ciate   th ex tr ac ted   f ea tu r es  with   th co r r esp o n d in g   em o tio n s   in   t h tr ain in g   d ata.   E m o tio n   r ec o g n itio n t h m o d el   u s es  th ex tr ac ted   f ea tu r es  f r o m   th test   au d io   to   p r ed ict  th m o s p r o b ab le  em o tio n .   T o   d o   th is ,   it  co m p ar es  th f ea tu r es to   th lea r n ed   m o d els d u r in g   t r ain in g   a n d   ass ig n s   th em o tio n   lab el  with   th h i g h est p r o b a b ilit y .           Fig u r 1 .   Sp ee c h   em o tio n   r ec o g n itio n   s y s tem   ar ch itectu r e       3 . 2 .     F e a t ure  ex t r a ct io n t ec h niq ue s   Feat u r e   e x t r a cti o n   is   t h e   p i v o t al  p r o ce s s   o f   c o n v e r t in g   t h e   s p e ec h   s i g n al   i n t o   a   s et   o f   p ar a m et er s   t h at  f a cili tat th e   i d en tif ic ati o n   a n d   c lass i f i ca t io n   o f   v a r i o u s   s p e ec h   s o u n d s   a n d   e m o ti o n s .   B el o w ,   we  will   e v o k s o m f e at u r e   e x t r ac ti o n   m et h o d s .     3 . 2 . 1 .   M el  f re qu ency   ce ps t ra l c o ef f icient s   MFC C   ar wid ely   u s ed   m eth o d   f o r   f ea tu r e x tr ac tio n   in   s p ee ch   p r o ce s s i n g ,   ef f ec tiv ely   ca p tu r in g   k ey   s p ec tr al   p r o p er ties   th r o u g h   1 0   to   1 2   c o ef f icien ts .   W h ile   MFC C   is   p o p u lar ,   it  is   h i g h l y   s en s itiv to   n o is e,   wh ich   ca n   im p air   th ac cu r a cy   o f   s p ee ch   r ec o g n itio n   s y s tem s .   T h is   s en s i tiv ity   s tem s   f r o m   its   r elian ce   o n   s p ec tr al  f ea tu r es,  m ak in g   it  v u ln er ab le  to   d is to r tio n   b y   b ac k g r o u n d   n o is e.   T h er e f o r e,   im p r o v in g   th e   r o b u s tn ess   o f   MFC C   in   n o is y   en v ir o n m en ts   r em ain s   cr u cial  f o cu s   in   s p ee ch   p r o ce s s in g   r e s ea r ch   [ 2 1 ] - [ 2 6 ] .     3 . 2 . 2 .   L inea predict io n c o ef f icient s   L PC   m o d els   s p e ec h   s i g n a b y   p r e d ict in g   ea ch   s a m p le  as  a   wei g h te d   s u m   o f   p r ev io u s   s a m p les .   T h is   m et h o d   e f f ec t iv el y   c ap tu r es   t h e   v o c al   t r a ct' s   s h a p e   a n d   is   v it al   f o r   i d e n t if y i n g   f o r m a n t   f r e q u en ci es,   w h i c h   co n t r i b u te   t o   a   v o i ce ' s   d is t in c t im b r e .   L PC   c o e f f ic ie n ts   a r e   t h e r e f o r e   c r it ica l   i n   s p ee c h   a n al y s is   f o r   p r ec is e   s ig n al   m o d e li n g   a n d   s y n th es is .   A d d it io n all y ,   L PC C   s e r v as   f u n d am en tal   f ea tu r e   in   v ar i o u s   s p e ec h   p r o ce s s i n g   ap p lic ati o n s   [ 2 2 ] ,   [ 2 7 ] - [ 2 9 ] .     3 . 2 . 3 .   L inea predict io n c eps t ra l c o ef f icient s   Per ce p t u al   li n ea r   p r ed ict io n   ( P L P)   e n h a n ce s   t h e   s h o r t - t er m   s p e ec h   s p ec t r u m   an al y s is   b y   i n co r p o r a ti n g   p s y c h o p h y s ic al   a d j u s t m en ts   t h at   ali g n   m o r e   cl o s e ly   wit h   h u m an   au d i t o r y   p e r c ep ti o n .   I t   u ti liz es   p a r a m et er s   f r o m   a   f ilt er   b a n k   o f   1 8   f ilt e r s ,   d is tr ib u t ed   ac co r d i n g   to   t h B ar k   s ca le ,   wh ic h   r ef lec ts   t h e   n o n li n ea r   f r eq u en cy   p e r c ep ti o n   o f   t h e   h u m a n   e ar .   C o v er in g   a   r a n g f r o m   0   t o   5 , 0 0 0   Hz ,   t h ese   f ilt er s   e f f e cti v e l y   ca p t u r e   t h e   c r iti ca asp ec ts   o f   s p ee c h .   T h is   a p p r o ac h   e n s u r es   th at   PL p r o v id e s   a   m o r ac cu r ate   r e p r ese n t ati o n   o f   h o w   h u m a n s   p e r c ei v e   s o u n d   [ 2 2 ] .       Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52         C o n ce p tio n   o f sp ee c h   emo tio n   r ec o g n itio n   meth o d s :   a   r ev iew   ( A b d elka d er B en z ir a r )   1859   4.   SPEE CH   E M O T I O R E C O G NIT I O AP P RO A CH E S   4 . 1 .     Na i v B a y es c la s s if ier   T h Naiv B ay es  cla s s if ier   ( NB )   is   p r o b ab ilis tic  clas s if i er   r o o ted   in   B ay es'   th eo r em .   R esear ch er s   h av em p lo y e d   t h is   class if ier   i n   n u m er o u s   s tu d ies  f o c u s ed   o n   tr ad itio n al  s en tim en a n aly s is   task s .   I r elies  o n   ca lcu latin g   co n d itio n al  p r o b ab ilit ies u s in g   ( 1 )   [ 30 ] :     ( | ) = ( ) . ( ) / ( )   ( 1 )     wh er e:   is   class ,   an d   B   is   an   in d ep en d en t v a r iab le  o r   ev en t.   P(A | B ) r ep r esen ts   th p o s ter i o r   p r o b ab ilit y   o f   B   d ep e n d in g   to   class   A .   P(B| A) r ep r esen ts   th lik elih o o d   o f   B   wh en   class   is   B .   P(A ) i s   th p r io r   in f o r m atio n   o f   th class   A.   P(B):  i s   th ev id en ce   o f   th e   in d ep en d e n t v ar iab le  B .     4 . 2 .     H idd en  m a r k o v   mo del   T h HM is   a   wid ely - u s ed   class if ier   in   s p ee ch   em o tio n   r ec o g n itio n ,   ef f ec tiv ely   m o d elin g   th e   d y n am ic  n at u r o f   s p ee ch .   Stu d ies  s h o th at  HM ac h iev es  im p r o v ed   p er f o r m an ce   wh e n   u s i n g   lo g a r ith m ic   f r eq u e n cy   p o wer   c o ef f icien ts   as  f ea tu r es.  T h is   m eth o d   h as  b ee n   f o u n d   to   o u tp er f o r m   tr a d itio n al  tech n iq u es   lik L PC C   an d   MFC C   in   em o tio n   r ec o g n itio n   ac c u r ac y   [ 3 1 ] - [ 33 ] .     4 . 3 .     Su pp o rt   v ec t o ma chine   SVM  is   k n o wn   f o r   its   s im p licity   an d   co m p u tatio n al  e f f i cien cy ,   m ak i n g   it  p o p u lar   ch o i ce   i n   m ac h in lear n in g .   Desp ite  its   s tr aig h tf o r war d   s tr u ctu r e,   it  ex ce ls   in   class if icat io n   task s   with   h ig h   p r ec is io n .   R esear ch   in d icate s   th at  SVM  o f ten   s u r p ass es  o th er   m o d els  i n   class if icatio n   ac cu r ac y ,   m a k in g   it  a   r eliab le  t o o in   v ar io u s   a p p licatio n s   [ 34 ].     4 . 4 .     K - nea re s t   neig hb o r   KNN  is   p o p u lar   s u p er v is ed   alg o r ith m   u s ed   f o r   b o th   clas s if icatio n   an d   r eg r ess io n   task s .   I g r o u p s   d ata  p o i n ts   b ased   o n   f ea tu r e   s im ilar ity ,   ass u m in g   n ea r b y   p o in ts   in   th e   f ea tu r e   s p ac s h a r e   th s am e   lab el  o r   v alu e.   KNN  ty p ically   u s es  E u clid ea n   d is tan ce   to   m ea s u r e   cl o s en ess ,   m ak in g   p r ed ictio n s   b ased   o n   th n ea r est  n eig h b o r s   [ 2 ] ,   [ 3 5 ] .     ( , ) = ( ) ² = 1   ( 2 )     wh er an d   b   ar e   two   p o i n ts   in   E u clid ea n   s p ac e ,   wh ile  a an d   b k   ar E u clid ea n   v ec to r s   an d   n   is   th n - th   s p ac e.     4 . 5 .     Art if ici a neura l net wo rk   T h ar tific ial  n eu r al   n etwo r k   ( ANN)   is   m o d eled   a f ter   b io lo g ical  n eu r al  s y s tem s ,   with   f ee d - f o r war d   n etwo r k s   b ei n g   wid ely   u s ed   i n   class if icatio n   task s .   T h ese  n etwo r k s   co n s is o f   in te r co n n e cted   n eu r o n s   ac r o s s   lay er s ,   wh er e   ea ch   n eu r o n   c o n n ec ts   to   th o s in   th e   p r e v io u s   lay er .   T h is   s tr u ctu r e n a b les  th n etwo r k   t o   p r o ce s s   in p u t d ata  a n d   lear n   p atter n s   f o r   d ec is io n - m ak in g   [ 3 6 ] .     4 . 6 .     Rec urre nt  neura l net wo rk   R ec u r r en n eu r al  n etwo r k s   ( R NNs)  ar p o wer f u d ee p   lear n in g   class if ier s ,   p ar ticu lar ly   ef f ec tiv f o r   task s   in v o lv in g   s eq u en tial  d ata.   T h ey   ex ce in   a p p licatio n s   lik s p ee ch   em o tio n   r e co g n itio n ,   s p ee c h   r ec o g n itio n ,   an d   lan g u ag tr a n s latio n   b y   u tili zin g   in f o r m at io n   f r o m   p r ev io u s   in p u ts .   R NNs  ar k n o wn   f o r   th eir   im p r ess iv r esu lts ,   h an d lin g   co m p lex   d ata   p atter n s   with   ea s e.   T h eir   v e r s atility   an d   s tr en g t h   h av estab lis h ed   R NNs  as  ess en tia l   to o ls   in   ad v a n ce d   m ac h in e   le ar n in g   an d   ar tific ial  in tellig en ce   ( AI )   ap p licatio n s   [ 30 ] [ 37 ] .     4 . 7 .     L o ng   s ho rt - t er m   m emo ry   net wo rk s   L STM   n etw o r k s   i m p r o v u p o n   R NNs  b y   ad d r ess i n g   g r a d ie n t   e x p l o s i o n   a n d   v a n is h i n g   g r a d ie n t   is s u es ,   r esu lti n g   in   h i g h e r   ac cu r a cy .   L S T Ms   u s e   s p ec i ali z ed   g at es  in p u t ,   o u t p u t   a n d   f o r g et   t o   ef f ec tiv ely   m a n a g e   i n f o r m ati o n   f l o o v e r   lo n g   s e q u e n c es.   T h is   m a k es  t h e m   es p ec i all y   p o we r f u f o r   t a s k s   r e q u ir in g   lo n g - ter m   d e p e n d e n c y   u n d e r s t an d i n g .   C o n s e q u en tl y ,   L STM s   ar f av o r e d   f o r   ap p l ic ati o n s   n e e d i n g   r o b u s s eq u en ce   m o d eli n g   [ 1 7 ] ,   [ 30 ] [ 37 ] .       4 . 8 .     Co nv o lutio na neura l net wo rk   C NNs  ar e   h i g h ly   ef f ec ti v e   i n   d ee p   le ar n i n g ,   p ar tic u l ar ly   in   im ag e   a n d   s p ee ch   r e c o g n i ti o n ,   d u e   t o   t h ei r   ab i lit y   t o   le ar n   co m p l ex   d ata   p a tte r n s .   T h e y   u t ili ze   co n v o l u ti o n al   la y er s   f o r   f ea tu r e   d et ec ti o n   an d   p o o li n g   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   In d o n esian   J   E lec   E n g   &   C o m p   Sci Vo l.  3 7 ,   No .   3 Ma r ch   20 2 5 :   1 85 6 - 1 86 4   1860   lay e r s   f o r   d im e n s i o n ali ty   r e d u cti o n   w h i le   m ai n ta in in g   c r u ci al  in f o r m a ti o n .   B at ch   n o r m al i za ti o n   a n d   d r o p o u t   lay e r s   a r e   o f te n   em p l o y e d   to   s t ab i liz tr ai n i n g   a n d   p r e v e n t   o v er f it ti n g ,   r es p ec t iv el y .   T h is   c o m b in ati o n   o f   l a y e r s   en s u r es C N Ns  ca n   ef f i cie n t ly   p r o ce s s   a n d   le a r n   f r o m   la r g e   d atas ets.   A d d iti o n al ly ,   DB Ns  ar v al u a b l in   s p ee c h   em o ti o n   r e c o g n i ti o n ,   o f f e r i n g   s tr o n g   c ap a b ili ties   i n   th is   d o m ain   [ 1 7 ] ,   [ 2 9 ] ,   [ 38 ] - [ 40 ] .       5.   L I M I T S   AND  WE AK N E S S E S O F   SPE E CH   E M O T I O RE CO G NI T I O N   T h s p ee ch   em o tio n   r ec o g n it io n   h as  s ev er al  lim its   an d   w ea k n ess es  th at  wil b p r esen ted   at  th f o llo win g :     5 . 1 .     E mo t io n v a ria bil it y   E m o tio n s   ar co m p le x   an d   c an   v ar y   s ig n if ican tly   b etwe en   in d iv id u als,  r ef lectin g   d if f er en ce s   in   p er s o n al  ex p er ien ce s   an d   p s y ch o lo g ical  s tates.  C u ltu r al  n o r m s   an d   v alu es  also   p lay   cr u cial  r o le  in   s h ap in g   h o em o tio n s   ar e   ex p r ess ed   an d   p e r ce iv ed ,   lead in g   to   v ar ia tio n s   ac r o s s   d if f e r en s o cieties.  Ad d itio n ally ,   th e   co n tex in   wh ich   an   em o tio n   is   ex p er ien ce d   ca n   in f lu e n ce   its   ex p r ess io n ,   m ak in g   it  d if f i cu lt  to   estab lis h   a   u n iv er s al  f r am ewo r k   f o r   em o tio n   id en tific atio n .   As  r e s u lt,  th in ter p r etatio n   o f   e m o tio n s   is   h ig h ly   s u b jectiv an d   ca n   d if f e r   n o o n ly   ac r o s s   lan g u a g es b u t a ls o   with in   d iv er s cu ltu r al  a n d   s o c ial  co n tex ts   [ 41 ] .     5 . 2 .     Da t a   s ca rc it y   a nd   qu a lity   SER  s y s tem s   n ec es s itate  ex ten s iv an d   v ar ied   d atasets   o f   s p ee ch   s ig n als  an n o tated   with   r eliab le   em o tio n   lab els.  No n eth eless ,   ass em b lin g   s u ch   d atasets   is   ch allen g in g   d u to   th eir   r a r ity ,   ex p en s e,   a n d   th e   tim r eq u ir ed   f o r   c o llectio n   an d   lab elin g .   Fu r t h er m o r e,   th q u ality   o f   s p ee ch   s ig n als  m a y   b co m p r o m is ed   b y   f ac to r s   lik n o is e,   d is to r tio n ,   s p ea k er   v ar iab ilit y ,   an d   ch a n n el  v ar iatio n s ,   all  o f   wh ich   ca n   d im in is h   th e   p er f o r m an ce   o f   SER s y s tem s   [ 42 ] .     5 . 3 .     F e a t ure  ex t r a ct io n a nd   s elec t io n   T h o p tim al  f ea t u r s et  f o r   S E R   is   s till   d eb ated ,   as   n o   s in g le  s et  h as  b ee n   u n i v er s ally   a cc ep ted   as  b est.  T h e   ef f ec tiv e n ess   o f   f ea tu r es  v ar ies  b ased   o n   th e m o tio n   m o d el,   d ataset,   an d   class if icatio n   alg o r ith m   u s ed .   So m f ea tu r es  m ay   in t r o d u ce   r ed u n d an c y   o r   n o is e,   c o m p licatin g   th e   an aly s is   an d   p o ten tially   r ed u cin g   SER  p er f o r m a n ce .   T h er ef o r e ,   ca r ef u s elec tio n   a n d   e v al u atio n   o f   f ea tu r es  ar e   ess en tial  f o r   d ev elo p in g   ef f icien t a n d   ac c u r ate  SER s y s tem s   [ 43 ] .     5 . 4 .     Cla s s if ica t io n a lg o rit hm s   Alg o r ith m   p er f o r m an ce   in   SE R   v ar ies  b ased   o n   th em o tio n   m o d el,   d ataset,   an d   f ea tu r e s   u tili ze d .   W h ile  s o m alg o r ith m s   p er f o r m   well   u n d er   s p ec if ic   co n d itio n s ,   th ey   m a y   s tr u g g le  i n   o th e r s ,   m a k in g   u n iv er s al  s o lu tio n   ch allen g i n g .   Ov er f itti n g   an d   u n d er f itti n g   ar e   co m m o n   is s u es  th at   ca n   h i n d er   SER   ef f ec tiv en ess .   T h er e f o r e,   ca r e f u s elec tio n   a n d   f in e - tu n in g   o f   alg o r ith m s   ar e   cr u cial  f o r   o p tim izin g   SER   s y s tem s   ac co r d in g   to   th e   task   an d   d ata  c h ar ac ter is tics   [ 44 ] .       6.   ARAB I C   L A NG UAG E - B AS E S E AP P RO ACH   I n   th is   s ec tio n ,   we  d elv in t o   s ev er al  in v esti g atio n s   with i n   th r ea lm   o f   Ar ab ic  s p ee ch   em o tio n   r ec o g n itio n .   Kh alil   et  a l.   [ 4 5 ]   f o cu s ed   o n   d etec tin g   a n g er   in   h u m an - h u m an   d ialo g u es,   p ar ticu lar ly   in   ca ll  ce n ter s ,   u s in g   class if ier s   lik SVM,   NB ,   KNN,   an d   d ec is i o n   tr ee   ( DT ) ,   an d   f ea tu r es  s u ch   as  f u n d a m en tal  f r eq u e n cy ,   f o r m an ts ,   en e r g y ,   an d   MFC C ,   ac h iev in g   7 7 ac cu r ac y   with   SVM.   Me f tah   et  a l.   [ 4 6 ]   s tu d ied   Ar ab ic  s p ee ch   em o tio n   r ec o g n itio n ,   an aly zin g   em o tio n s   lik s ad n ess ,   h ap p in ess ,   an d   an g er   with   r h y t h m   m etr ics  an d   th KSUE m o tio n s   co r p u s ,   f i n d in g   th at  s ad n e s s   h ad   th h ig h est  class if icatio n   ac cu r ac y   u s in g   m u ltil ay er   p e r ce p tr o n   ( MLP )   an d   SVM.   Hif n y   a n d   Ali  [ 4 7 ]   e n h an ce d   Ar a b ic  s p ee ch   e m o tio n   r ec o g n itio n   with   an   a tten tio n - b ased   C NN - L STM - DNN  m o d el,   s h o win g   2 . 2 im p r o v em en o v er   th d ee p   C NN  b aselin e.   C h er if   et  a l.   [ 4 8 ]   i n v esti g ated   em o tio n   d etec tio n   i n   th Alg er ian   d ialec t,  f o c u s in g   o n   em o tio n s   lik h ap p y ,   an g r y ,   n eu tr al,   an d   s ad .   T h ey   em p lo y ed   an   L STM - C NN  class if ier   with   MFC C   as  th f ea tu r e   ex tr ac tio n   tech n i q u e,   u s in g   m an u ally   an n o tated   c o r p u s   o f   Alg er ian   telev is io n   b r o a d ca s ts .   T h m o d el   ac h iev ed   a n   ac cu r ac y   o f   9 3 . 3 4 %.  Alju h an et  a l.   [ 4 9 ]   d ev elo p ed   s p ee c h   em o tio n   r e co g n i tio n   s y s tem   f o r   th e   Sau d d ialec t,  u s in g   SVM,   ML P,  an d   KNN  m o d els  with   v ar io u s   f ea tu r e   ex tr ac tio n   m eth o d s ,   ac h ie v in g   7 7 . 1 4 ac c u r ac y   with   SVM.   Mo h am ed   a n d   Aly   [ 5 0 ]   s h o w ed   im p r o v ed   r ec o g n itio n   ac cu r ac y   with   ML an d   Bi - L STM   m o d els  o n   th B A VE d ataset.   T ajals ir   et  a l.  [ 5 1 ]   u s ed   L STM   an d   C NN  to   en h an ce   em o tio n   r ec o g n itio n   in   h u m an - co m p u t er   in ter ac tio n .   Alam r an d   Als h an b ar i   [ 5 2 ]   r ep o r ted   9 5 ac cu r ac y   u s in g   C NN   with   MFC C   o n   an   Ar ab ic  Yo u T u b d ataset.     Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52         C o n ce p tio n   o f sp ee c h   emo tio n   r ec o g n itio n   meth o d s :   a   r ev iew   ( A b d elka d er B en z ir a r )   1861   7.   RE SU L T S   AND  D I SCU SS I O N   T ab le  1   illu s tr ates  th ev o lu ti o n   o f   f ea tu r e   ex tr ac tio n   tech n i q u es  an d   m eth o d s   u s ed   in   SE R   s y s tem s .   T h ea r lies s tu d y   in   2 0 0 1   u ti lized   b asic  f ea tu r es  s u ch   as  p i tch   an d   e n er g y   co m b in ed   wit h   HM M,   ac h iev in g   an   ac cu r ac y   o f   8 0 %.  As  r esea r ch ,   p r o g r ess ed ,   m o r s o p h is ticated   f ea tu r es  a n d   co m b i n atio n s   wer ex p lo r ed .   Fo r   ex am p le,   a   2 0 0 5   s tu d y   in t r o d u ce d   a   r an g e   o f   f ea tu r es  in clu d in g   en er g y ,   f u n d am en tal  f r eq u en c y ,   MFC C s ,   an d   f o r m an f r eq u en cies,  co u p led   with   HM an d   SVM,   l ea d in g   to   r em ar k ab le  ac c u r ac y   r ates,  with   u p   to   1 0 0 f o r   m ale  s p ea k er s .   Fr o m   2 0 1 7   o n war d s ,   d ee p   lear n in g   m eth o d s   b ec am in c r e asin g ly   p r o m in en t.     2 0 1 7   s tu d y   e m p lo y i n g   D NN  ac h iev ed   9 6 . 9 7 ac cu r a cy ,   in d icatin g   th p o ten tial  o f   d ee p   lear n in g   in   ca p tu r in g   co m p lex   e m o tio n a cu es  in   s p ee ch .   T h s h if to war d s   d ee p   lear n in g   co n tin u ed ,   with   th e   in tr o d u ctio n   o f   C NN  in   2 0 2 0 ,   wh ich   d em o n s tr ated   a n   im p r e s s iv r an g o f   ac cu r ac ies  b etw ee n   9 2 a n d   9 8 %.  T h ad o p tio n   o f   a d v an ce d   tech n iq u es  s u ch   as  3 lo g   m el - s p ec tr o g r a m s   in   2 0 2 1 ,   co m b in e d   with   s o p h is ticated   m o d els  lik d ee p   atten tio n - b ased   d ilated   co n v o l u tio n al - r ec u r r en t   n eu r al   n etwo r k s   ( ADC R NN) ,   f u r th er   en h an ce d   p er f o r m a n ce ,   ac h ie v in g   an   ac c u r ac y   o f   u p   t o   8 8 . 4 7 with   GAN - b ased   m eth o d s .   T h tr en d   to war d s   lev er ag in g   d ee p   lear n in g   m o d els is   ev id en t in   2 0 2 2   an d   2 0 2 3 ,   wh er m eth o d s   lik w av 2 v e 2 . 0 ,   C ap s Net,   an d   h y b r id   ap p r o ac h es  ac h iev ed   ac cu r ac ies  ex ce ed in g   9 3 %.  T h tab le  h ig h lig h ts   a   clea r   tr en d   t o war d s   th in cr ea s in g   ad o p tio n   o f   d ee p   le ar n in g   m o d els an d   m o r c o m p lex   f ea tu r s ets in   r ec en y ea r s .       T ab le  1 .   Su m m a r y   o f   s p ee ch   e m o tio n   r ec o g n itio n   r esear ch es   Ref   Y e a r   F e a t u r e   e x t r a c t i o n   t e c h n i q u e s   M e t h o d s   R e s u l t s   [ 4 ]   2 0 0 1   P i t c h   a n d   e n e r g y   H M M   8 0 %   [ 5 ]   2 0 0 5   En e r g y ,   f u n d a m e n t a l   f r e q u e n c y   ( F 0 ) ,   M F C C 1   a n d   M F C C 2 ,   t h e   f i r st   f o u r   f o r man t   f r e q u e n c i e s (F 1   t o   F 4 ) ,   a n d   f i v e   m e l   f r e q u e n c y   s u b - b a n d   e n e r g i e ( M B E 1   t o   M B E 5 )   H M M   a n d   S V M   9 8 . 9 ( f e m a l e )   1 0 0 %   ( ma l e )   9 9 . 5 ( g e n d e r - i n d e p e n d e n t )   [ 8 ]   2 0 1 7   -   DNN   9 6 . 9 7 %   [ 1 5 ]   2 0 1 4   A f f e c t - sal i e n t   f e a t u r e s   C N N   9 2 % - 9 8 %   [ 1 9 ]   2 0 2 1   3 D   l o g   m el - s p e c t r o g r a m   ( M e l S p e c )   A D C R N N   a n d   H A D   ( h y b r i d   d a t a   a u g me n t a t i o n )   8 7 . 1 2 %   ( t r a d i t i o n a l   met h o d )   8 8 . 4 7 %   ( G A N - b a se d   met h o d )   [ 1 6 ]   2 0 2 2   M F C C ,   LPC,   e n e r g y ,   s p e c t r a l   f l o w ,   sp e c t r a l   c e n t r o i d ,   s p e c t r a l   a t t e n u a t i o n   a n d   z e r o   c r o ssi n g   K N N ,   S V M   a n d   R F   7 6 . 5 %   [ 1 2 ]   2 0 2 3   -   W a v 2 v e c   2 . 0   8 1 % - 8 3 %   [ 1 4 ]   2 0 2 3   -   X G B o o st ,   R F ,   F C N ,   w a v 2 v e c   2 . 0 ,   U n i S p e e c h - S A T ,   d a t a 2 v e c ,   w a v L M ,   w a v 2 c l i p ,   Y A M N e t ,   E C A P A   a n d   x - v e c t o r   -   [ 1 7 ]   2 0 2 3   M F C C   C N N   a n d   B LS TM   6 7 . 4 4 %   [ 1 8 ]   2 0 2 3   -   X LS - R   5 3 ,   X LS - R   5 3   S P   ( S p a n i s h ) ,   X LS - R   5 3   EN   ( E n g l i s h ) ,   X LS R - 3 0 0 M ,   X LSR - 1 B ,   X LSR - 1 B   EN   ( En g l i s h )   X LS R - 1 B   S P   ( S p a n i s h ) ,   X LSR - 2 B   a n d   w a v 2 v e c   2 . 0   S p e a r m a n   r a n k   c o r r e l a t i o n   c o e f f i c i e n t :   0 . 5 3 7   ( t e s t   se t )   0 . 5 2 4   ( v a l i d a t i o n   se t )   [ 2 0 ]   2 0 2 3   M F C C   a n d   Z C R   C a p sN e t   a n d   d a t a   a u g me n t a t i o n   9 3 . 3 3 %       T ab le  2   p r esen ts   a   clea r   p r o g r ess io n   in   th e   tech n iq u es  an d   m et h o d s   u s ed   f o r   s p ee ch   em o tio n   r ec o g n itio n   in   Ar ab ic  lan g u a g f r o m   2 0 1 8   to   2 0 2 3 .   E ar l y   s tu d ies,  s u ch   as  th o n i n   2 0 1 8 ,   r elied   o n   tr ad itio n al  m ac h in e   lear n in g   m o d els  lik SVM,   DT ,   KNN,   an d   NB ,   with   MF C C   an d   b asic  ac o u s tic  f ea tu r es,   ac h iev in g   a   m ax im u m   ac cu r ac y   o f   7 7 . 2 %.  As  tim p r o g r ess ed ,   m o r s o p h is ticated   f ea tu r es  an d   d ee p   lear n i n g   m o d els  wer e   in tr o d u ce d ,   s ig n if ican tly   im p r o v in g   p e r f o r m an ce .   B y   2 0 2 1 ,   s tu d ies  u s in g   L STM - C NN   ar ch itectu r es  with   MFC C   ac h iev ed   m u c h   h i g h er   ac cu r ac y   ( 9 3 . 3 4 %),   in d icatin g   th e   s u p er io r   ab ilit y   o f   d ee p   lear n in g   m o d els  to   ca p tu r te m p o r al  d y n a m ics  in   s p ee ch .   T h tr en d   co n tin u e d   in to   2 0 2 2   an d   2 0 2 3 ,   wh er e   m o r c o m p lex   f ea t u r s ets  li k ch r o m o g r am ,   m el - s ca led   s p ec tr o g r a m ,   a n d   ad v a n ce d   d e ep   lear n i n g   m o d els   lik C NN,   L STM ,   an d   DNN s   wer em p lo y ed .   T h ese  ap p r o ac h es  ac h iev ed   ev en   h i g h er   a cc u r ac ies,  s u ch   as  9 6 . 8 1 %   with   L STM   a n d   9 5 with   C NN,   h ig h lig h tin g   th in c r ea s in g   e f f ec tiv en es s   o f   d ee p   lea r n in g   ap p r o ac h es  co m b in e d   with   c o m p r eh e n s iv f ea tu r e   ex tr ac ti o n   tech n i q u es.  T h is   p r o g r ess io n   u n d er s co r es  th e   im p o r tan ce   o f   b o th   ad v an ce d   f ea tu r ex tr ac tio n   an d   d ee p   lear n in g   m eth o d s   in   ac h iev in g   h ig h   ac cu r ac y   in   s p ee ch   em o tio n   r ec o g n itio n   ta s k s .         Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   In d o n esian   J   E lec   E n g   &   C o m p   Sci Vo l.  3 7 ,   No .   3 Ma r ch   20 2 5 :   1 85 6 - 1 86 4   1862   T ab le  2 .   Su m m a r y   o f   Ar ab ic  s p ee ch   em o tio n   r ec o g n itio n   r esear ch es   Ref   Y e a r   F e a t u r e   e x t r a c t i o n   t e c h n i q u e s   M e t h o d s   R e s u l t s   [ 4 5 ]   2 0 1 8   F u n d a m e n t a l   f r e q u e n c y ,   f o r man t s,   e n e r g y   a n d   M F C C   S V M ,   D T ,   K N N   a n d   N B   7 7 . 2 ( t h e   b e st   a c c u r a c y   w i t h   S V M )   [ 4 6 ]   2 0 2 0   P i t c h ,   i n t e n s i t y ,   f o r ma n t s,  j i t t e r ,   sh i mm e r ,   h a r m o n i c s - to - n o i se   r a t i o   a n d   r h y t h m   me t r i c s   M LP  n e u r a l   n e t w o r k s a n d   S V M   P h a se 1 :   4 9 ( w i t h   M LP)   5 2 ( w i t h   S V M )   P h a se 2 :   8 3 . 6 7 %   ( w i t h   M LP)   8 3 . 9 5 %   ( w i t h   S V M )   [ 4 7 ]   2 0 2 0   M F C C   a n d   L o g   M e l - f i l t e r   b a n k   e n e r g i e s (LF B E)   A t t e n t i o n - b a se d   C N N - LST M - D N N   mo d e l   a n d   d e e p   C N N   mo d e l   A t t e n t i o n - b a se d   C N N - LST M - DNN  mo d e l :   8 7 . 2 %   D e e p   C N N :   8 5 %   [ 4 8 ]   2 0 2 1   M F C C   LSTM - C N N   9 3 . 3 4 %   [ 4 9 ]   2 0 2 1   M F C C ,   mel   sp e c t r o g r a m   a n d   S p e c t r a l   c o n t r a s t   S V M ,   M LP ,   a n d   K N N   7 7 . 1 4 %   ( b e st   a c c u r a c y   o b t a i n e d   w i t h   S V M )   [ 5 0 ]   2 0 2 1   w a v 2 v e c 2 . 0   a n d   H u B E R T   M LP  a n d   B i - LS TM   W a v 2 v e c 2 . 0 :   8 9 %   H u B E R T :   8 7 ( H u B E R b a s e )   8 3 ( H u B E R l a r g e )   [ 5 1 ]   2 0 2 2   M F C C ,   c h r o ma g r a m ,   m e l - sca l e d   sp e c t r o g r a m ,   s p e c t r a l   c o n t r a s t   a n d   t o n a l   c e n t r o i d   f e a t u r e s ( t o n n e t z )   LSTM   a n d   D N N   LSTM :   9 6 . 8 1 %   D N N :   9 3 . 3 4 %   [ 5 2 ]   2 0 2 3   M F C C   a n d   z e r o - c r o ss i n g   r a t e   ( ZC R )   M a c h i n e   l e a r n i n g   a l g o r i t h ms  ( S V M   a n d   K N N ) .   D e e p   l e a r n i n g   a l g o r i t h ms   ( C N N   a n d   LST M ) .   9 5 ( C N N   w i t h   M F C C )       8.   CO NCLU SI O N   R ec en ad v an ce m en ts   in   SER  u n d er s co r th im p o r tan ce   o f   d ee p   lear n in g   tech n iq u es,   esp ec ially   wh en   p air ed   with   ad v a n ce d   f ea tu r ex tr ac tio n   m et h o d s   lik MFC C ,   C NN - L STM   ar ch itectu r es,  an d   s elf - s u p er v is ed   m o d els  s u ch   as  wav 2 v ec   2 . 0   an d   Hu B E R T .   T h ese  ap p r o ac h es  s ig n if ican tly   o u tp er f o r m   tr ad itio n al   m eth o d s ,   d eliv er i n g   h ig h er   ac cu r ac y   an d   ca p tu r i n g   th n u an ce s   o f   em o tio n al  s p ee c h .   T h is   s h if f r o m   tr ad itio n al  m ac h i n lear n i n g   to   d ee p   lear n i n g   h as  led   t o   m ajo r   im p r o v em e n ts   in   S E R ' s   ac cu r ac y   an d   ad ap tab ilit y   ac r o s s   v ar io u s   la n g u ag es  a n d   c o n tex ts .   Ou r   f u tu r r esear ch   will  f o cu s   o n   d ev elo p in g   s p ee c h   em o tio n   r ec o g n izer   f o r   t h A m az ig h   lan g u ag e ,   ad d r ess in g   i ts   u n iq u e   p h o n etic  an d   p r o s o d ic  f ea tu r es.  W aim   to   cr ea te  co m p r e h en s iv A m az ig h   d ataset  an d   ex p er im en with   ad v an ce d   d ee p   lear n in g   an d   h y b r i d   m o d els.  C r o s s - lin g u is tic  an aly s is   will   ex p lo r m o d el  t r an s f er ab ilit y   b etwe en   lan g u ag es  lik e   Ar ab ic  an d   Am az ig h ,   p o ten tially   co n tr ib u tin g   to   m o r u n iv er s al  SER  s y s tem s   an d   ex p an d in g   th eir   ap p licat io n   ac r o s s   d iv e r s lin g u is tic  en v ir o n m en ts .       RE F E R E NC E S   [ 1 ]   P .   N a n d w a n i   a n d   R .   V e r ma,   A   r e v i e w   o n   se n t i me n t   a n a l y s i a n d   e m o t i o n   d e t e c t i o n   f r o t e x t ,   S o c i a l   N e t w o rk  An a l y si a n d   Mi n i n g ,   v o l .   1 1 ,   n o .   1 ,   p .   8 1 ,   D e c .   2 0 2 1 ,   d o i :   1 0 . 1 0 0 7 / s1 3 2 7 8 - 0 2 1 - 0 0 7 7 6 - 6.   [ 2 ]   T.   M .   W a n i ,   T .   S .   G u n a w a n ,   S .   A .   A .   Q a d r i ,   M .   K a r t i w i ,   a n d   E.   A mb i k a i r a j a h ,   A   c o m p r e h e n si v e   r e v i e w   o f   s p e e c h   e mo t i o n   r e c o g n i t i o n   sy s t e m s,”   I EEE   Ac c e ss ,   v o l .   9 ,   p p .   4 7 7 9 5 4 7 8 1 4 ,   2 0 2 1 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 1 . 3 0 6 8 0 4 5 .   [ 3 ]   I .   S .   En g b e r g ,   A .   V .   H a n se n ,   O .   A n d e r sen ,   a n d   P .   D a l s g a a r d ,   D e s i g n ,   r e c o r d i n g   a n d   v e r i f i c a t i o n   o f   a   d a n i s h   e mo t i o n a l   sp e e c h   d a t a b a se ,   i n   5 t h   E u r o p e a n   C o n f e re n c e   o n   S p e e c h   C o m m u n i c a t i o n   a n d   T e c h n o l o g y   ( E u ro s p e e c h   1 9 9 7 ) ,   S e p .   1 9 9 7 ,     p p .   1 6 9 5 1 6 9 8 ,   d o i :   1 0 . 2 1 4 3 7 / E u r o s p e e c h . 1 9 9 7 - 4 8 2 .   [ 4 ]   A .   N o g u e i r a s,  A .   M o r e n o ,   A .   B o n a f o n t e ,   a n d   J .   B .   M a r i ñ o ,   S p e e c h   e m o t i o n   r e c o g n i t i o n   u s i n g   h i d d e n   m a r k o v   mo d e l s,   i n   7 t h   Eu r o p e a n   C o n f e r e n c e   o n   S p e e c h   C o m m u n i c a t i o n   a n d   T e c h n o l o g y   ( Eu r o sp e e c h   2 0 0 1 ) ,   S e p .   2 0 0 1 ,   p p .   2 6 7 9 2 6 8 2 ,   d o i :   1 0 . 2 1 4 3 7 / Eu r o s p e e c h . 2 0 0 1 - 6 2 7 .   [ 5 ]   Y .   Li n   a n d   G .   W e i ,   S p e e c h   e m o t i o n   r e c o g n i t i o n   b a s e d   o n   H M M   a n d   S V M ,   i n   2 0 0 5   I n t e r n a t i o n a l   C o n f e re n c e   o n   M a c h i n e   L e a r n i n g   a n d   C y b e r n e t i c s ,   2 0 0 5 ,   p p .   4 8 9 8 4 9 0 1 ,   d o i :   1 0 . 1 1 0 9 / I C M L C . 2 0 0 5 . 1 5 2 7 8 0 5 .   [ 6 ]   K .   H .   H y u n ,   E .   H .   K i m,   a n d   Y .   K .   K w a k ,   Emo t i o n a l   f e a t u r e   e x t r a c t i o n   b a se d   o n   p h o n e m e   i n f o r ma t i o n   f o r   sp e e c h   e m o t i o n   r e c o g n i t i o n ,   i n   RO - MA N   2 0 0 7   -   T h e   1 6 t h   I EE I n t e r n a t i o n a l   S y m p o s i u m   o n   Ro b o t   a n d   H u m a n   I n t e ra c t i v e   C o m m u n i c a t i o n 2 0 0 7 ,   p p .   8 0 2 8 0 6 ,   d o i :   1 0 . 1 1 0 9 / R O M A N . 2 0 0 7 . 4 4 1 5 1 9 5 .   [ 7 ]   Y .   K i m ,   H .   Le e ,   a n d   E.   M .   P r o v o s t ,   D e e p   l e a r n i n g   f o r   r o b u st   f e a t u r e   g e n e r a t i o n   i n   a u d i o v i s u a l   e m o t i o n   r e c o g n i t i o n ,   i n   2 0 1 3   I EEE  I n t e r n a t i o n a l   C o n f e r e n c e   o n   Ac o u st i c s,  S p e e c h   a n d   S i g n a l   Pro c e ssi n g ,   M a y   2 0 1 3 ,   p p .   3 6 8 7 3 6 9 1 ,   d o i :   1 0 . 1 1 0 9 / I C A S S P . 2 0 1 3 . 6 6 3 8 3 4 6 .   [ 8 ]   P .   H a r a r ,   R .   B u r g e t ,   a n d   M .   K .   D u t t a ,   S p e e c h   e m o t i o n   r e c o g n i t i o n   w i t h   d e e p   l e a r n i n g ,   i n   2 0 1 7   4 t h   I n t e r n a t i o n a l   C o n f e r e n c e   o n   S i g n a l   Pr o c e ssi n g   a n d   I n t e g r a t e d   N e t w o r k s ( S PI N ) ,   F e b .   2 0 1 7 ,   p p .   1 3 7 1 4 0 ,   d o i :   1 0 . 1 1 0 9 / S P I N . 2 0 1 7 . 8 0 4 9 9 3 1 .   [ 9 ]   B .   T .   A t ma j a   a n d   M .   A k a g i ,   S p e e c h   e mo t i o n   r e c o g n i t i o n   b a se d   o n   sp e e c h   seg m e n t   u s i n g   LST M   w i t h   a t t e n t i o n   m o d e l ,   i n   2 0 1 9   I EEE  I n t e r n a t i o n a l   C o n f e r e n c e   o n   S i g n a l a n d   S y st e m s (I C S i g S y s) ,   J u l .   2 0 1 9 ,   p p .   4 0 4 4 ,   d o i :   1 0 . 1 1 0 9 / I C S I G S Y S . 2 0 1 9 . 8 8 1 1 0 8 0 .   [ 1 0 ]   B .   T.   A t m a j a   a n d   A .   S a s o u ,   Ef f e c t s   o f   d a t a   a u g m e n t a t i o n o n   s p e e c h   e mo t i o n   r e c o g n i t i o n ,   S e n s o rs ,   v o l .   2 2 ,   n o .   1 6 ,   p .   5 9 4 1 ,   A u g .   2 0 2 2 ,   d o i :   1 0 . 3 3 9 0 / s2 2 1 6 5 9 4 1 .   [ 1 1 ]   B .   T .   A t maj a   a n d   A .   S a s o u ,   Ev a l u a t i n g   se l f - su p e r v i se d   s p e e c h   r e p r e s e n t a t i o n f o r   sp e e c h   e m o t i o n   r e c o g n i t i o n ,   I EEE   Ac c e ss v o l .   1 0 ,   p p .   1 2 4 3 9 6 1 2 4 4 0 7 ,   2 0 2 2 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 2 . 3 2 2 5 1 9 8 .     Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52         C o n ce p tio n   o f sp ee c h   emo tio n   r ec o g n itio n   meth o d s :   a   r ev iew   ( A b d elka d er B en z ir a r )   1863   [ 1 2 ]   F .   C a t a n i a ,   S p e e c h   e m o t i o n   r e c o g n i t i o n   i n   I t a l i a n   u s i n g   w a v 2 v e c   2 . 0   a n d   t h e   n o v e l   c r o w d s o u r c e d   e m o t i o n a l   sp e e c h   c o r p u s   e mo z i o n a l m e n t e ,   Au t h o r e a   Pre p r i n t s ,   M a y   2 0 2 3 ,   d o i :   1 0 . 3 6 2 2 7 / t e c h r x i v . 2 2 8 2 1 9 9 2 . v 1 .   [ 1 3 ]   O .   C .   P h u k a n ,   A .   B .   B u d u r u ,   a n d   R .   S h a r ma,   Tr a n sf o r mi n g   t h e   e m b e d d i n g s:   a   l i g h t w e i g h t   t e c h n i q u e   f o r   sp e e c h   e m o t i o n   r e c o g n i t i o n   t a sk s ,   Pr o c e e d i n g s   o f   t h e   An n u a l   C o n f e re n c e   o f   t h e   I n t e r n a t i o n a l   S p e e c h   C o m m u n i c a t i o n   Ass o c i a t i o n ,   I N T ERS PEE C H ,   v o l .   2 0 2 3 - A u g u s t ,   p p .   1 9 0 3 1 9 0 7 ,   2 0 2 3 ,   d o i :   1 0 . 2 1 4 3 7 / I n t e r sp e e c h . 2 0 2 3 - 2 5 6 1 .   [ 1 4 ]   O .   C .   P h u k a n ,   A .   B .   B u d u r u ,   a n d   R .   S h a r m a ,   A   c o m p a r a t i v e   st u d y   o f   p r e - t r a i n e d   sp e e c h   a n d   a u d i o   e m b e d d i n g f o r   sp e e c h   e mo t i o n   r e c o g n i t i o n ,   a rX i v   p r e p r i n t   a rXi v : 2 3 0 4 . 1 1 4 7 2 ,   2 0 2 3 ,   [ O n l i n e ] .   A v a i l a b l e :   h t t p : / / a r x i v . o r g / a b s/ 2 3 0 4 . 1 1 4 7 2 .   [ 1 5 ]   Z.   H u a n g ,   M .   D o n g ,   Q .   M a o ,   a n d   Y .   Zh a n ,   S p e e c h   e m o t i o n   r e c o g n i t i o n   u s i n g   C N N ,   i n   Pr o c e e d i n g o f   t h e   2 2 n d   AC i n t e r n a t i o n a l   c o n f e re n c e   o n   M u l t i m e d i a ,   N o v .   2 0 1 4 ,   p p .   8 0 1 8 0 4 ,   d o i :   1 0 . 1 1 4 5 / 2 6 4 7 8 6 8 . 2 6 5 4 9 8 4 .   [ 1 6 ]   A .   A sg h a r ,   S .   S o h a i b ,   S .   I f t i k h a r ,   M .   S h a f i ,   a n d   K .   F a t i ma ,   A n   U r d u   sp e e c h   c o r p u f o r   e m o t i o n   r e c o g n i t i o n ,   Pe e r J   C o m p u t e r   S c i e n c e ,   v o l .   8 ,   p .   e 9 5 4 ,   M a y   2 0 2 2 ,   d o i :   1 0 . 7 7 1 7 / p e e r j - c s. 9 5 4 .   [ 1 7 ]   Y .   X i a   a n d   L.   Z h a o ,   C N N - B L S TM   w i t h   a t t e n t i o n   m o d e l   f o r   s p e e c h   e mo t i o n   r e c o g n i t i o n .   O c t .   0 4 ,   2 0 2 3 ,   d o i :     1 0 . 2 1 2 0 3 / r s . 3 . r s - 3 3 9 2 0 0 8 / v 1 .   [ 1 8 ]   B .   T .   A t m a j a   a n d   A .   S a s o u ,   En s e mb l i n g   m u l t i l i n g u a l   p r e - t r a i n e d   m o d e l s f o r   p r e d i c t i n g   m u l t i - l a b e l   r e g r e ss i o n   e m o t i o n   s h a r e   f r o m   sp e e c h ,   i n   2 0 2 3   As i a   P a c i f i c   S i g n a l   a n d   I n f o rm a t i o n   Pro c e ss i n g   Ass o c i a t i o n   A n n u a l   S u m m i t   a n d   C o n f e re n c e   ( APS I P A S C ) O c t .   2 0 2 3 ,   p p .   1 0 2 6 1 0 2 9 ,   d o i :   1 0 . 1 1 0 9 / A P S I P A A S C 5 8 5 1 7 . 2 0 2 3 . 1 0 3 1 7 1 0 9 .   [ 1 9 ]   N .   T.   P h a e t   a l . ,   H y b r i d   d a t a   a u g m e n t a t i o n   a n d   d e e p   a t t e n t i o n - b a s e d   d i l a t e d   c o n v o l u t i o n a l - r e c u r r e n t   n e u r a l   n e t w o r k s fo r   s p e e c h   e mo t i o n   r e c o g n i t i o n ,   Ex p e r t   S y st e m s   w i t h   A p p l i c a t i o n s ,   v o l .   2 3 0 ,   p .   1 2 0 6 0 8 ,   N o v .   2 0 2 3 ,   d o i :   1 0 . 1 0 1 6 / j . e sw a . 2 0 2 3 . 1 2 0 6 0 8 .   [ 2 0 ]   H .   Zh a n g ,   H .   H u a n g ,   a n d   H .   H a n ,   M A - C a p sN e t - D A :   S p e e c h   e m o t i o n   r e c o g n i t i o n   b a s e d   o n   M A - C a p sN e t   u s i n g   d a t a   a u g me n t a t i o n ,   E x p e rt   S y st e m w i t h   A p p l i c a t i o n s ,   v o l .   2 4 4 ,   p .   1 2 2 9 3 9 ,   Ju n .   2 0 2 4 ,   d o i :   1 0 . 1 0 1 6 / j . e sw a . 2 0 2 3 . 1 2 2 9 3 9 .   [ 2 1 ]   M .   J.  A l a m ,   Y .   A t t a b i ,   P .   D u m o u c h e l ,   P .   K e n n y ,   a n d   D .   O S h a u g h n e ss y ,   A mp l i t u d e   m o d u l a t i o n   f e a t u r e s   f o r   e mo t i o n   r e c o g n i t i o n   f r o m sp e e c h ,   i n   I n t e rs p e e c h   2 0 1 3 ,   A u g .   2 0 1 3 ,   p p .   2 4 2 0 2 4 2 4 ,   d o i :   1 0 . 2 1 4 3 7 / I n t e r s p e e c h . 2 0 1 3 - 5 6 3 .   [ 2 2 ]   U .   S h r a w a n k a r   a n d   V .   M .   Th a k a r e ,   Te c h n i q u e f o r   f e a t u r e   e x t r a c t i o n   i n   s p e e c h   r e c o g n i t i o n   s y s t e m  :   a   c o m p a r a t i v e   st u d y ,   a r Xi v   p re p ri n t   a rXi v : 1 3 0 5 . 1 1 4 5 ,   2 0 1 3 ,   [ O n l i n e ] .   A v a i l a b l e :   h t t p : / / a r x i v . o r g / a b s / 1 3 0 5 . 1 1 4 5 .   [ 2 3 ]   H .   G u p t a   a n d   D .   G u p t a ,   LP C   a n d   L P C C   me t h o d   o f   f e a t u r e   e x t r a c t i o n   i n   sp e e c h   r e c o g n i t i o n   sy s t e m ,   i n   2 0 1 6   6 t h   I n t e r n a t i o n a l   C o n f e re n c e   -   C l o u d   S y s t e m   a n d   B i g   D a t a   E n g i n e e r i n g   ( C o n f l u e n c e ) ,   J a n .   2 0 1 6 ,   p p .   4 9 8 5 0 2 ,   d o i :   1 0 . 1 1 0 9 / C O N F LU EN C E. 2 0 1 6 . 7 5 0 8 1 7 1 .   [ 2 4 ]   F .   R e g g i s w a r a s h a r i   a n d   S .   W .   S i h w i ,   S p e e c h   e m o t i o n   r e c o g n i t i o n   u s i n g   2 D - c o n v o l u t i o n a l   n e u r a l   n e t w o r k ,   I n t e r n a t i o n a l   J o u r n a l   o f   E l e c t r i c a l   a n d   C o m p u t e r   E n g i n e e r i n g   ( I J E C E ) ,   v o l .   1 2 ,   n o .   6 ,   p p .   6 5 9 4 6 6 0 1 ,   D e c .   2 0 2 2 ,   d o i :   1 0 . 1 1 5 9 1 / i j e c e . v 1 2 i 6 . p p 6 5 9 4 - 6 6 0 1 .   [ 2 5 ]   H .   A o u a n i   a n d   Y .   B e n   A y e d ,   S p e e c h   e mo t i o n   r e c o g n i t i o n   w i t h   d e e p   l e a r n i n g ,   Pr o c e d i a   C o m p u t e S c i e n c e ,   v o l .   1 7 6 ,     p p .   2 5 1 2 6 0 ,   2 0 2 0 ,   d o i :   1 0 . 1 0 1 6 / j . p r o c s.2 0 2 0 . 0 8 . 0 2 7 .   [ 2 6 ]   R .   Y .   R u m a g i t ,   G .   A l e x a n d e r ,   a n d   I .   F .   S a p u t r a ,   M o d e l   c o m p a r i s o n   i n   s p e e c h   e mo t i o n   r e c o g n i t i o n   f o r   I n d o n e si a n   l a n g u a g e ,   Pro c e d i a   C o m p u t e r   S c i e n c e ,   v o l .   1 7 9 ,   p p .   7 8 9 7 9 7 ,   2 0 2 1 ,   d o i :   1 0 . 1 0 1 6 / j . p r o c s. 2 0 2 1 . 0 1 . 0 9 8 .   [ 2 7 ]   M .   H a m i d i ,   H .   S a t o r i ,   O .   Z e a l o u k ,   a n d   K .   S a t o r i ,   A m a z i g h   d i g i t s   t h r o u g h   i n t e r a c t i v e   s p e e c h   r e c o g n i t i o n   s y s t e m   i n   n o i s y   e n v i r o n m e n t ,   I n t e r n a t i o n a l   J o u r n a l   o f   S p e e c h   T e c h n o l o g y ,   v o l .   2 3 ,   n o .   1 ,   p p .   1 0 1 1 0 9 ,   M a r .   2 0 2 0 ,   d o i :   1 0 . 1 0 0 7 / s 1 0 7 7 2 - 019 - 0 9 6 6 1 - 2.   [ 2 8 ]   S .   A n a n t h i   a n d   P .   D h a n a l a k s h m i ,   S V M   a n d   H M M   m o d e l i n g   t e c h n i q u e f o r   s p e e c h   r e c o g n i t i o n   u si n g   LP C C   a n d   M F C C   f e a t u r e s,   i n   Pr o c e e d i n g o f   t h e   3 r d   I n t e r n a t i o n a l   C o n f e r e n c e   o n   Fr o n t i e rs  o f   I n t e l l i g e n t   C o m p u t i n g :   T h e o r y   a n d   Ap p l i c a t i o n s   ( FI C T A)   2 0 1 4 :   Vo l u m e   1 ,   2 0 1 5 ,   p p .   5 1 9 5 2 6 ,   d o i :   1 0 . 1 0 0 7 / 9 7 8 - 3 - 3 1 9 - 1 1 9 3 3 - 5 _ 5 8 .   [ 2 9 ]   B .   P .   D a s   a n d   R .   P a r e k h ,   R e c o g n i t i o n   o f   i s o l a t e d   w o r d u s i n g   f e a t u r e s   b a s e d   o n   LPC   ,   M F C C   ,   ZC R   a n d   S TE  ,   w i t h   n e u r a l   n e t w o r k   c l a ss i f i e r s ,   I n t e rn a t i o n a l   J o u rn a l   o f   Mo d e rn   E n g i n e e r i n g   Re se a r c h   ( I J M ER) ,   v o l .   2 ,   n o .   3 ,   p p .   8 5 4 8 5 8 ,   2 0 1 2 .   [ 3 0 ]   S .   B o d a p a t i ,   H .   B a n d a r u p a l l y ,   R .   N .   S h a w ,   a n d   A .   G h o s h ,   C o mp a r i s o n   a n d   a n a l y s i o f   R N N - LSTM a n d   C N N f o r   so c i a l   r e v i e w s c l a ss i f i c a t i o n ,   i n   A d v a n c e s   i n   A p p l i c a t i o n o f   D a t a - D r i v e n   C o m p u t i n g ,   2 0 2 1 ,   p p .   4 9 5 9 .   [ 3 1 ]   S .   M a o ,   D .   T a o ,   G .   Z h a n g ,   P .   C .   C h i n g ,   a n d   T.   Le e ,   R e v i s i t i n g   h i d d e n   mar k o v   mo d e l f o r   s p e e c h   e m o t i o n   r e c o g n i t i o n ,   i n   I C AS S P   2 0 1 9   -   2 0 1 9   I EEE   I n t e r n a t i o n a l   C o n f e re n c e   o n   Ac o u st i c s,   S p e e c h   a n d   S i g n a l   Pr o c e ss i n g   ( I C A S S P) ,   M a y   2 0 1 9 ,     p p .   6 7 1 5 6 7 1 9 ,   d o i :   1 0 . 1 1 0 9 / I C A S S P . 2 0 1 9 . 8 6 8 3 1 7 2 .   [ 3 2 ]   T.   L.   N w e ,   S .   W .   F o o ,   a n d   L.   C .   D e   S i l v a ,   D e t e c t i o n   o f   s t r e ss   a n d   e mo t i o n   i n   sp e e c h   u si n g   t r a d i t i o n a l   a n d   F F T   b a s e d   l o g   e n e r gy  f e a t u r e s,   i n   F o u r t h   I n t e rn a t i o n a l   C o n f e r e n c e   o n   I n f o rm a t i o n ,   C o m m u n i c a t i o n a n d   S i g n a l   Pr o c e s si n g ,   2 0 0 3   a n d   t h e   F o u rt h   Pa c i f i c   R i m   C o n f e re n c e   o n   M u l t i m e d i a .   Pr o c e e d i n g s   o f   t h e   2 0 0 3   J o i n t ,   2 0 0 3 ,   v o l .   3 ,   p p .   1 6 1 9 1 6 2 3 ,   d o i :   1 0 . 1 1 0 9 / I C I C S . 2 0 0 3 . 1 2 9 2 7 4 1 .   [ 3 3 ]   M .   H a mi d i ,   O .   Z e a l o u k ,   H .   S a t o r i ,   N .   La a i d i ,   a n d   A .   S a l e k ,   C O V I D - 1 9   a ss e ssm e n t   u si n g   H M M   c o u g h   r e c o g n i t i o n   s y st e m,”   I n t e r n a t i o n a l   J o u r n a l   o f   I n f o rm a t i o n   T e c h n o l o g y ,   v o l .   1 5 ,   n o .   1 ,   p p .   1 9 3 2 0 1 ,   Ja n .   2 0 2 3 ,   d o i :   1 0 . 1 0 0 7 / s4 1 8 7 0 - 0 2 2 - 0 1 1 2 0 - 7.   [ 3 4 ]   Y .   P a n ,   P .   S h e n ,   a n d   L .   S h e n ,   F e a t u r e   e x t r a c t i o n   a n d   se l e c t i o n   i n   s p e e c h   e mo t i o n   r e c o g n i t i o n ,   2 0 0 5 .   [ 3 5 ]   F .   M .   J.   M e h e d i   S h a mr a t   e t   a l . ,   S e n t i men t   a n a l y si s   o n   t w i t t e r   t w e e t s   a b o u t   C O V I D - 1 9   v a c c i n e s u si   n g   N LP   a n d   su p e r v i se d   K N N   c l a ss i f i c a t i o n   a l g o r i t h m,   I n d o n e si a n   J o u r n a l   o f   El e c t r i c a l   En g i n e e r i n g   a n d   C o m p u t e S c i e n c e   ( I J EEC S ) ,   v o l .   2 3 ,   n o .   1 ,     p p .   4 6 3 4 7 0 ,   J u l .   2 0 2 1 ,   d o i :   1 0 . 1 1 5 9 1 / i j e e c s. v 2 3 . i 1 . p p 4 6 3 - 4 7 0 .   [ 3 6 ]   M .   I q b a l ,   S .   A l i ,   M .   A b i d ,   F .   M a j e e d ,   a n d   A .   A l i ,   A r t i f i c i a l   n e u r a l   n e t w o r k   b a se d   e m o t i o n   c l a ssi f i c a t i o n   a n d   r e c o g n i t i o n   f r o m   sp e e c h ,   I n t e rn a t i o n a l   J o u r n a l   o f   Ad v a n c e d   C o m p u t e S c i e n c e   a n d   Ap p l i c a t i o n s ,   v o l .   1 1 ,   n o .   1 2 ,   2 0 2 0 ,   d o i :   1 0 . 1 4 5 6 9 / I JA C S A . 2 0 2 0 . 0 1 1 1 2 5 3 .   [ 3 7 ]   I .   Zy o u t   a n d   M .   Zy o u t ,   S e n t i men t   a n a l y si o f   st u d e n t   f e e d b a c k   u s i n g   a t t e n t i o n - b a s e d   R N N   a n d   t r a n s f o r m e r   e m b e d d i n g ,   I A ES   I n t e rn a t i o n a l   J o u rn a l   o f   A r t i f i c i a l   I n t e l l i g e n c e   ( I J - A I ) ,   v o l .   1 3 ,   n o .   2 ,   p p .   2 1 7 3 2 1 8 4 ,   J u n .   2 0 2 4 ,   d o i :   1 0 . 1 1 5 9 1 / i j a i . v 1 3 . i 2 . p p 2 1 7 3 - 2 1 8 4 .   [ 3 8 ]   M .   O .   A d e b i y i ,   T.   T.   A d e l i y i ,   D .   O l a n i y a n ,   a n d   J.  O l a n i y a n ,   A d v a n c e m e n t i n   a c c u r a t e   s p e e c h   e mo t i o n   r e c o g n i t i o n   t h r o u g h   t h e   i n t e g r a t i o n   o f   C N N - A M   m o d e l ,   T ELKO M N I K ( T e l e c o m m u n i c a t i o n   C o m p u t i n g   El e c t ro n i c a n d   C o n t r o l ) ,   v o l .   2 2 ,   n o .   3 ,     p p .   6 0 6 6 1 8 ,   J u n .   2 0 2 4 ,   d o i :   1 0 . 1 2 9 2 8 / t e l k o m n i k a . v 2 2 i 3 . 2 5 7 0 8 .   [ 3 9 ]   H .   B o u l a l ,   M .   H a mi d i ,   M .   A b a r k a n ,   a n d   J.   B a r k a n i ,   A m a z i g h   C N N   sp e e c h   r e c o g n i t i o n   sy st e m   b a se d   o n   m e l   sp e c t r o g r a m   f e a t u r e   e x t r a c t i o n   m e t h o d ,   I n t e rn a t i o n a l   J o u rn a l   o f   S p e e c h   T e c h n o l o g y ,   v o l .   2 7 ,   n o .   1 ,   p p .   2 8 7 2 9 6 ,   M a r .   2 0 2 4 ,   d o i :   1 0 . 1 0 0 7 / s1 0 7 7 2 - 024 - 1 0 1 0 0 - 0.   [ 4 0 ]   H .   A si l   a n d   J .   B a g h e r z a d e h ,   P r o p o si n g   a   n e w   m e t h o d   o f   i ma g e   c l a ssi f i c a t i o n   b a s e d   o n   t h e   A d a B o o s t   d e e p   b e l i e f   n e t w o r k   h y b r i d   met h o d ,   T EL K O MN I K ( T e l e c o m m u n i c a t i o n   C o m p u t i n g   E l e c t r o n i c a n d   C o n t r o l ) ,   v o l .   1 7 ,   n o .   5 ,   p p .   2 6 5 0 2 6 5 8 ,   O c t .   2 0 1 9 ,   d o i :   1 0 . 1 2 9 2 8 / t e l k o m n i k a . v 1 7 i 5 . 1 1 7 9 7 .   [ 4 1 ]   S .   M a r i o o r y a d   a n d   C .   B u sso ,   C o m p e n sa t i n g   f o r   sp e a k e r   o r   l e x i c a l   v a r i a b i l i t i e i n   sp e e c h   f o r   e mo t i o n   r e c o g n i t i o n ,   S p e e c h   C o m m u n i c a t i o n ,   v o l .   5 7 ,   p p .   1 1 2 ,   F e b .   2 0 1 4 ,   d o i :   1 0 . 1 0 1 6 / j . s p e c o m . 2 0 1 3 . 0 7 . 0 1 1 .   [ 4 2 ]   A .   S h i l a n d a r i ,   H .   M a r v i ,   H .   K h o sr a v i ,   a n d   W .   W a n g ,   S p e e c h   e mo t i o n   r e c o g n i t i o n   u si n g   d a t a   a u g me n t a t i o n   met h o d   b y   c y c l e - g e n e r a t i v e   a d v e r sar i a l   n e t w o r k s ,   S i g n a l ,   I m a g e   a n d   V i d e o   Pr o c e ssi n g ,   v o l .   1 6 ,   n o .   7 ,   p p .   1 9 5 5 1 9 6 2 ,   O c t .   2 0 2 2 ,   d o i :   1 0 . 1 0 0 7 / s 1 1 7 6 0 - 0 2 2 - 0 2 1 5 6 - 9.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   In d o n esian   J   E lec   E n g   &   C o m p   Sci Vo l.  3 7 ,   No .   3 Ma r ch   20 2 5 :   1 85 6 - 1 86 4   1864   [ 4 3 ]   R .   Ja h a n g i r ,   Y .   W .   Te h ,   F .   H a n i f ,   a n d   G .   M u j t a b a ,   D e e p   l e a r n i n g   a p p r o a c h e s   f o r   sp e e c h   e m o t i o n   r e c o g n i t i o n :   st a t e   o f   t h e   a r t   a n d   r e sea r c h   c h a l l e n g e s ,   Mu l t i m e d i a   T o o l s   a n d   Ap p l i c a t i o n s ,   v o l .   8 0 ,   n o .   1 6 ,   p p .   2 3 7 4 5 2 3 8 1 2 ,   Ju l .   2 0 2 1 ,   d o i :   1 0 . 1 0 0 7 / s1 1 0 4 2 - 020 - 0 9 8 7 4 - 7.   [ 4 4 ]   M .   B .   A k ç a y   a n d   K .   O ğ u z ,   S p e e c h   e m o t i o n   r e c o g n i t i o n :   e m o t i o n a l   mo d e l s ,   d a t a b a s e s,  f e a t u r e s ,   p r e p r o c e ssi n g   me t h o d s ,   su p p o r t i n g   m o d a l i t i e s,  a n d   c l a ssi f i e r s,   S p e e c h   C o m m u n i c a t i o n ,   v o l .   1 1 6 ,   p p .   5 6 7 6 ,   J a n .   2 0 2 0 ,   d o i :   1 0 . 1 0 1 6 / j . sp e c o m. 2 0 1 9 . 1 2 . 0 0 1 .   [ 4 5 ]   A .   K h a l i l ,   W .   A l - K h a t i b ,   E . - S .   El - A l f y ,   a n d   L.   C h e d e d ,   A n g e r   d e t e c t i o n   i n   A r a b i c   s p e e c h   d i a l o g s ,   i n   2 0 1 8   I n t e r n a t i o n a l   C o n f e re n c e   o n   C o m p u t i n g   S c i e n c e a n d   E n g i n e e r i n g   ( I C C S E) ,   M a r .   2 0 1 8 ,   p p .   1 6 ,   d o i :   1 0 . 1 1 0 9 / I C C S E 1 . 2 0 1 8 . 8 3 7 4 2 0 3 .   [ 4 6 ]   A .   H .   M e f t a h ,   M .   Q a mh a n ,   Y .   A l o t a i b i ,   a n d   S . - A .   S e l o u a n i ,   Em o t i o n a l   sp e e c h   r e c o g n i t i o n   u s i n g   r h y t h m e t r i c a n d   a   n e w   A r a b i c   C o r p u s ,   i n   2 0 2 0   1 6 t h   I EE E   I n t e rn a t i o n a l   C o l l o q u i u m   o n   S i g n a l   Pro c e ss i n g   I t s   A p p l i c a t i o n ( C S PA) ,   F e b .   2 0 2 0 ,     p p .   5 7 6 2 ,   d o i :   1 0 . 1 1 0 9 / C S P A 4 8 9 9 2 . 2 0 2 0 . 9 0 6 8 7 1 0 .   [ 4 7 ]   Y .   H i f n y   a n d   A .   A l i ,   Ef f i c i e n t   A r a b i c   e mo t i o n   r e c o g n i t i o n   u s i n g   d e e p   n e u r a l   n e t w o r k s ,   i n   I C A S S 2 0 1 9   -   2 0 1 9   I EEE   I n t e r n a t i o n a l   C o n f e re n c e   o n   Ac o u st i c s ,   S p e e c h   a n d   S i g n a l   Pr o c e ss i n g   ( I C A S S P) ,   M a y   2 0 1 9 ,   p p .   6 7 1 0 6 7 1 4 ,   d o i :   1 0 . 1 1 0 9 / I C A S S P . 2 0 1 9 . 8 6 8 3 6 3 2 .   [ 4 8 ]   R .   Y .   C h e r i f ,   A .   M o u ss a o u i ,   N .   F r a h t a ,   a n d   M .   B e r r i mi ,   Ef f e c t i v e   sp e e c h   e mo t i o n   r e c o g n i t i o n   u si n g   d e e p   l e a r n i n g   a p p r o a c h e s   f o r   A l g e r i a n   d i a l e c t ,   i n   2 0 2 1   I n t e rn a t i o n a l   C o n f e re n c e   o f   W o m e n   i n   D a t a   S c i e n c e   a t   T a i f   U n i v e rsi t y   ( Wi D S T a i f   ) ,   M a r .   2 0 2 1 ,     p p .   1 6 ,   d o i :   1 0 . 1 1 0 9 / W i D S Ta i f 5 2 2 3 5 . 2 0 2 1 . 9 4 3 0 2 2 4 .   [ 4 9 ]   R .   H .   A l j u h a n i ,   A .   A l s h u t a y r i ,   a n d   S .   A l a h d a l ,   A r a b i c   s p e e c h   e m o t i o n   r e c o g n i t i o n   f r o S a u d i   D i a l e c t   C o r p u s,”   I E EE   Ac c e ss v o l .   9 ,   p p .   1 2 7 0 8 1 1 2 7 0 8 5 ,   2 0 2 1 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 1 . 3 1 1 0 9 9 2 .   [ 5 0 ]   O .   M o h a m e d   a n d   S .   A .   A l y ,   A r a b i c   sp e e c h   e m o t i o n   r e c o g n i t i o n   e m p l o y i n g   w a v 2 v e c 2 .   0   a n d   h u b e r t   b a s e d   o n   b a v e d   d a t a se t ,   a rXi v   p re p r i n t   a rXi v : 2 1 1 0 . 0 4 4 2 5 ,   2 0 2 1 ,   d o i :   1 0 . 4 8 5 5 0 / a r X i v . 2 1 1 0 . 0 4 4 2 5 .   [ 5 1 ]   M .   T a j a l s i r ,   S .   M .   H e r n ´ a n d e z ,   a n d   F .   A .   M o h a mm e d ,   A S ER S - LS TM :   A r a b i c   sp e e c h   e mo t i o n   r e c o g n i t i o n   s y st e b a se d   on  LSTM   m o d e l ,   S i g n a l   I m a g e   Pro c e ssi n g :   An   I n t e r n a t i o n a l   J o u r n a l ,   v o l .   1 3 ,   n o .   1 ,   p p .   1 9 2 7 ,   F e b .   2 0 2 2 ,   d o i :   1 0 . 5 1 2 1 / si p i j . 2 0 2 2 . 1 3 1 0 2 .   [ 5 2 ]   H .   A l a mr i   a n d   H .   A l sh a n b a r i ,   Em o t i o n   r e c o g n i t i o n   i n   A r a b i c   sp e e c h   f r o S a u d i   D i a l e c t   C o r p u u si n g   ma c h i n e   l e a r n i n g   a n d   d e e p   l e a r n i n g   a l g o r i t h ms .   J u n .   1 3 ,   2 0 2 3 ,   d o i :   1 0 . 2 1 2 0 3 / r s . 3 . r s - 3 0 1 9 1 5 9 / v 1 .       B I O G RAP H I E S O F   AUTH O RS       Abd e lk a d e r   Be n z ira r   (Ph . D.  st u d e n t)           re c e iv e d   h is  m a ste r' d e g re e   in   in telli g e n t   sy ste m a n d   n e two r k a th e   F a c u lt y   o S c ien c e   a n d   Tec h n o l o g y ,   S i d M o h a m e d   Be n   Ab d e ll a h   Un iv e rsity   o F e z   (M o r o c c o in   2 0 1 5 .   He   is  c u rre n tl y   p u rsu i n g   h is  P h . D .   i n   sp e e c h   e m o ti o n   re c o g n it i o n .   His  re se a rc h   in tere st  in c lu d e m a c h in e   lea rn in g   a lg o r it h m a n d   s p e e c h   e m o ti o n   re c o g n it i o n   m e th o d s.  He   c a n   b e   c o n tac ted   at   e m a il a b d e lk a d e r. b e n z irar.d 2 3 @ u m p . a c . m a .         Pro f.   Dr .   M o h a m e d   H a m i d i           is   a   P ro fe ss o r   in   t h e   De p a rt m e n o f   Co m p u ter  S c ien c e   a th e   M u lt id isc ip li n a r y   F a c u lt y   o Na d o r,   M o h a m m e d   Un iv e rsity ,   Ou jd a ,   M o ro c c o .   He   re c e iv e d   h is  P h . D.  in   C o m p u ter  S c ien c e   in   2 0 2 0   fro m   t h e   F a c u lt y   o S c ien c e s,  Dh a El   M a h ra z ,   S id M o h a m m e d   Be n   A b d e ll a h   U n iv e rsit y ,   F e z .   He   o b ta in e d   h is  Ba c h e lo r' d e g re e   fro m   th e   M u l ti d isc i p li n a r y   F a c u l t y   o f   Na d o r   (F P N),  M o h a m m e d   I   Un iv e rsity ,   i n   2 0 1 1 ,   a n d   h is  M a ste r' d e g re e   fro m   th e   F a c u lt y   o S c ien c e s,  Teto u a n ,   Ab d e l m a lek   Essa a d Un iv e rsity ,   M o ro c c o ,   i n   2 0 1 3 .   His  c u rre n re se a rc h   i n tere sts  i n c lu d e   m a c h in e   lea rn i n g ,   fo rm a n t   fre q u e n c ies ,   p a tt e rn   re c o g n it i o n ,   sp e e c h   a n d   lan g u a g e   p r o c e ss in g ,   sp e e c h   re c o g n it io n ,   sp e e c h   se c u rit y ,   i n tera c ti v e   v o ice   sy ste m s,  a n d   v o ice   o v e I P.   He   c a n   b e   c o n tac ted   a t   e m a il :   m . h a m id i@u m p . a c . m a .         Pro f.   Dr .   M o u n c e Fi l a li   B o u a m         re c e iv e d   a n   M . S c .   in   E lec tro n ics   fro m   t h e   Un iv e rsity   o f   F e z ,   M o ro c c o   in   1 9 9 8   a n d   a   P h . D.  d e g re e   fro m   t h e   U n iv e rsit y   o f   G ra n a d a ,   S p a i n   in   2 0 0 5   a fter  h a v i n g   d e fe n d e d   a   d o c to ra t h e sis  o n   t h e   m o d e li n g   o RBF   n e u ra n e two rk s u sin g   T - No rm   a n d   T - C o n o rm   o p e ra to r a n d   we ig h ts  p a ra m e teriz a ti o n .   S in c e   2 0 1 0   h e   h a b e e n   a   S e n io Lec t u re a th e   P o ly - Disc ip li n a r y   F a c u lt y   o Na d o r,   M o h a m m e d   p re m ier  Un iv e rsity ,   M o ro c c o .   His  re se a rc h   in tere st  in c lu d e m a c h in e   lea rn in g   a lg o ri t h m s,  tex c las sifica ti o n   a n d   sp e e c h   re c o g n it io n   m e th o d s.  He   c a n   b e   c o n tac ted   a e m a il m . f il a li b o u a m i@u m p . a c . m a .     Evaluation Warning : The document was created with Spire.PDF for Python.