I n d on e s i an   Jo u r n al   o El e c t r i c al   En gi n e e r i n g   an d   C o m p u te r   S c i e n c e   V o l .   21 ,   N o .   3 M a r c 2021 ,   pp .   14 00 ~ 1 4 0 6   IS S N :   25 02 - 4752 ,   D O I :   10. 1 1591 / i j e e c s . v 21 .i 3 . pp 140 0 - 1 4 0 6             1400       Jou r n al   h o m e pa ge ht t p: / / i j e e c s . i a e s c or e . c om   A   h y b r i d   st r a t e g y   f o r   e m o t i o n   c l a ss i f i c a t i o n       H u s s ah   N as s e r   A l e i s a   D e pa r t m e n t   of   C o m put e r   S c i e nc e s ,   C C I S ,   P r i nc e s s   N o ur a h   bi nt   A bdul r a hm a n   U n i v e r s i t y ,   R i y a dh,   K S A       A r ti c l e   I n fo     A B S TR A C T   Ar t i c l e   h i s t or y :   R e c e i v e d   M ar   25 ,   2 020   R e v i s e d   A ug   3 0 ,   2020   A c c e pt e d   O c t   1 ,   20 20       H um a n   e m o t i o r e c o g ni t i o i s   a upc o m i ng   r e s e a r c f i e l d   o f   hum a n   c om put e r   i n t e r a c t i o ba s e on   f a c i a l   g e s t u r e s   a nd   is   be i ng   us e d   f o r   r e a l - t i m e   a na l y s i s   in   c l a s s i f y i ng   c og ni t i v e   a f f e c t i v e   s t a t e s   f r o m   a   f a c i a l   v i de o   da t a .   S i nc e   c o m put e r s   ha v e   b e c o m e   an   i nt e g r a l   pa r t   of   l i f e ,   m a ny   r e s e a r c he r s   a r e   us i ng   e m o t i o n   r e c o g ni t i o n   a nd   c l a s s i f i c a t i o n   of   da t a   ba s e d   on   a ud i o   a nd   t e xt .   B ut   t he s e   a pp r o a c he s   o f f e r   l i m i t e d   a c c ur a c y   a nd   r e l e v a nc e   in   e m o t i o n   c l a s s i f i c a t i o n.   T h e r e f o r e   we   h a v e   i n t r o duc e d   a nd   a n a l y z e d   a   hy br i d   a pp r o a c h   w hi c h   c o ul d   o ut pe r f o r m   t he   e xi s t i ng   s t r a t e g i e s   t ha t   us e s   an   i nno v a t i v e   a ppr o a c h   s uppo r t e d   by   s e l e c t i o n   of   a ud i o   a nd   v i d e o   da t a   c ha r a c t e r i s t i c s   f o r   c l a s s i f i c a t i o n.   T h e   r e s e a r c h   u s e s   S V M   f o r   c l a s s i f y i ng   t he   da t a   u s i ng   a udi o - v i s ua l   s a v e e   d a t a ba s e   a nd   t he   r e s ul t s   o bt a i ne d   s ho w   m a xi m um   c l a s s i f i c a t i o n   a c c ur a c y   w i t h   r e s pe c t   to   a udi o   da t a   a bo ut   91 . 6   c o ul d   be   i m p r o v e d   to   99. 2%   a f t e r   t he   a p pl i c a t i o n   of   hy br i d   s t r a t e gy .       Ke y w or ds :   A udi o - v i de o s pe e c h r e c o gn i t i o n   in   car   d a t a b a s e   E m o t i o n   c l a s s i f i c a t i o n   E m o t i o n   de t e c t i o n   E m o t i o n   r e c o gn i t i o n   S uppo r t   v e c t o r   m a c h i n e   T hi s   is   an   ope n   ac c e s s   ar t i c l e   u nde r   t he   CC   BY - SA   l i c e ns e .     Cor r e s pon di n g   Au t h or :   H us s a h   N a s s e r   A l e i s a   D e pa rt m e n t   of   Co m put e r   S c i e n c e s   Co l l e ge   of   Co m put e r   a nd   I n f o rm a t i o n   S c i e n c e s   P r i n c e s s   N o ura h   B i nt   A b dul ra h m a n   U n i v e r s i t y ,   R i y a dh ,   K S A   E m a i l :   h a l e i s a 201 9@ g m a i l . c o m       1.   I N TR O D U C TI O N   T h e   f a c i a l   e xpr e s s i o n s   a r e   a s s um e d   to   c h a n ge   w h e n e v e r   an   e m o t i o n   is   e xpe ri e n c e d,   t h e r e f o r e   e m o t i o n   de t e c t i o n   c o ul d   be   a c h i e v e d   by   de t e c t i n g   t h e   f a c i a l   e xpr e s s i o n   a s s o c i a t e d   to   i t .   F a c i a l   a c t i o n s   can   be   e xt ra c t e d   f r o m   e a c h   f a c i a l   e xpr e s s i o n .   T h e   c ha n ge s   of   e y e s ,   m o ut h   a n d   n o s e   p o s i t i o n i n g   c o ul d   be   de t e r m i n e d   by   t h e   m o ve m e n t s   of   f a c i a l   m us c l e s   a n d   c o m put e r   p r o gra m s   i m pl e m e n t   t h e   us e r s   f a c i a l   e xp r e s s i o n s   a l o n g   w i t h   h e a d   m o v e m e n t s   by   i m a ge   c a pt u r i ng   a p p r o a c h   by   re pr e s e n t i n g   do t s   in   t h e   c oo r di na t e   s y s t e m .   T h e   c h a nge s   a r e   t h e n   a na l y z e d   as   h a ppe ni n g   of   a   f a c i a l   a c t i o n .   T h e r e   a r e   a b o ut   46   f a c i a l   a c t i o n   u n i t s   (F A U )   fo un d   in   f a c i a l   a c t i o n   c o di n s y s t e m   (F A CS )   a c c o r di n g   to   a   r e s e a rc h   in   1 980   by   E km a n   et   a l .   By   e m o t i o n   a   pe r s o n   is   a b l e   to   c o m m u n i c a t e   a nd   e xp r e s s   f e e l i n gs   s uc h   as   i n t e r e s t s ,   w i s h e s ,   t a rge t s ,   r e qui r e m e n t s   a n d   m uc h   m o r e .   P h y s i o l o gi c a l   r e s po n s e s   a r e   n e e de d   in   m a n y   pl a c e s   of   t hi s   e xpr e s s i o n   a n d   may   c h a n ge   t h e   v o i c e   of   t h e   pe r s o n.   F o r   i n s t a n c e   e n e r gy   c o n s um pt i o n   m a y   be   m o r e   fo r   e m o t i o n a l   e v e n t s   l i ke   a n ge r   (w h i c h   r a i s e s   voc a l   c o r ds   v i b r a t i o n,   m o di f i e s   s h a pe   a n d   rh y t h m   of   t h e   b r e a t hi ng   r e qui r e m e nt s   in   m us c l e s ).   T h e r e f o r e   E m o t i o n   R e c o gn i t i o n   r e p r e s e n t s   h u m a n   v o i c e   as   da t a   w h i c h   m o s t   of   t h e   r e s e a r c h e r s   a ppl y   fo r   e m o t i o n   r e c o gn i t i o n   [1] .   In   r e c e n t   s t udi e s   l o t   of   fo c u s   w a s   on   t h i s   k i n d   of   da t a   so   as   to   ge t   b e t t e r   r e s ul t s .   So   b a s e d   on   s pe e c h ,   t e xt   a n d   i m a ge   t h e   r e s e a r c h e r s   de v e l o pe d   m a n y   h y b r i d   a pp r o a c h e s   fo r   e m o t i o n   c l a s s i f i c a t i o n   [2].   It   is   a s s u m e d   t ha t   vo i c e   c h a nge s   a r e   i n de pe nde nt   of   l a n gua ge   a n d   s pe a ke r,   t h e r e f o r e   w h e n   c l a s s i fy i n g   e m o t i o n ,   r e s e a r c h e r s   c o n s i de r   o n l y   t h e   fe a t u r e s   of   a c o us t i c   s o un d   i n s t e a d   of   o t h e r   f e a t u r e s   as   t h e   e n e r gy ,   pi t c h   a n d   t h e   s pe e d   of   e m o t i o n a l   s pe e c h   c ha n ge s   a n d   m o s t l y   t h e   v a r i a n t s   b e c a us e   t h e   s t r o n g   a c o us t i c   c h a ra c t e ri s t i c s   of   t h e   s pe e c h   c a nn o t   be   us e d   i n di v i du a l l y   to   de t e r m i n e   t h e   e m o t i o n s   p r e c i s e l y   a nd   e f f i c i e n t l y .     Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A   h y br i d   s t r a t e g y   f or   e m ot i on   c l as s i f i c a t i on   ( H us s ah  Nas s e r   A l e i s a )   1401   To   i m p r o v e   t h e   c l a s s i f i c a t i o n   p r e c i s i o n   of   e m o t i o n s   t h e   us e   of   e xt r a   v o i c e   fe a t u r e s   l i ke   t h e   s pe c t ra l   a n d   p r o s o di c   fe a t u r e s   is   do n e   a n d   t h e   v i de o   fe a t ur e s   a r e   t h e n   a pp l i e d   as   c o m pl e m e n t a r y   f a c t o r .   T h i s   m e t h o d   w o ul d   h e l p   in   e nha n c i n g   t h e   e m o t i o n   c l a s s i f i c a t i o n   p r e c i s e l y   to   a   h i g h e r   e xt e nt .   T h e   a i m   of   t h i s   r e s e a r c h   pa pe r   is   to   de v e l o p   a   m i xe d   e m o t i o n   c l a s s i f i e r   us i ng   b o t h   t h e   a udi o / v i de o   c h a r a c t e r i s t i c s   .   To   a n a l y z e   we   t a ke   i n t o   c o n s i de ra t i o n   s e v e n   t y p e s   of   e m o t i o n   c l a s s e s :   a n ge r ,   ha ppi n e s s ,   f e a r,   ha t r e d ,   p uz z l e ,   s h o c k   a nd   n e ut ra l .   T h e   h y b r i d   s t ra t e gy   e s t i m a t e s   t h e   e ff e c t   of   v i de o   f e a t ur e s   us a ge   on   t h e   c l a s s i f i c a t i o n   p r e c i s i o n .   T h e   e m o t i o n s   c l a s s i f i c a t i o n   is   do n e   w i t h   r e s pe c t   to   a ud i o   da t a   o n l y   fo l l ow e d   by   t h e   c o m pa r i s o n   of   r e s ul t s   w i t h   c l a s s i f i c a t i o n   w i t h   r e s pe c t   to   b o t h   a udi o   a nd   v i de o   f e a t ur e s .   T h e   pa pe r   o r g a n i z a t i o n   i n i t i a l l y   b e gi n s   w i t h   r e v i e w i n g   t h e   e xi s t i n g   w o r k   in   t h e   a r e a   of   e m o t i o n   r e c o gn i t i o n   a n d   c l a s s i f i c a t i o n   f o r m ul a t e d   in   S e c t i o n   2.   T h e   S e c t i o n   3   p r o v i de s   t h e   de t a i l s   of   s uppo r t   r e qui r e d   fo r   t h e   e xpe ri m e nt a l   pu r po s e   s uc h   as   t h e   d a t a   c o l l e c t i o n   a nd   r e l a t e d   d a t a b a s e .   F e a t u r e   e xt r a c t i o n s   is   e xpl a i n e d   in   S e c t i o n   4.   T h e   h y b r i d   m e t h o d   is   p r o po s e d   in   S e c t i o n   5.   T h e   e xpe r i m e nt a l   r e s ul t s   a r e   s h o w n   in   S e c t i o n   6.   F i na l l y ,   S e c t i o n   7   c o n c l ude s   t h e   p a pe r   a n d   p r o po s e s   di r e c t i o n s   for   t h e   f ut u r e   r e s e a r c h .       2.   LI TER A TU R E   S U R V E Y   T h e   us e   of   a udi o / v i de o   (A V )   s i gn a l s   or   a   c o m b i n a t i o n   of   s u c h   s i g n a l s ,   to   i nt e rp r e t   hum a n   e m o t i o n s   is   a   c o m m o n   m e t h o d   to   c l a s s i fy   a n d   s e n s e   h u m a n   e m o t i o n .   T h i s   pa pe r   a i m s   at   p r o po s i n g   a   go o d   a l t e rna t i v e   s o l ut i o n   to   t h e   e xi xt i n g   s l ut i o n s   b a s e d   on   offe r i n g   i n c r e a s e d   c l a s s i f i c a t i o n   a c c u r a c y .   T h e r e   is   p r o b a b i l i t y   to   e n c o un t e r   a dv e r s e   e m o t i o n s   t h a t   a dd   n e ga t i v i t y   to   t h e   e m o t i o n s .   S o m e   of   t h e   w o r ds   s uc h   as   f r i g h t ,   o v e r   s t r e s s i n g ,   s a d   a n d   a m a z e m e n t   e m o t i o n s ,   a c c o r di n g   to   t h e   a u t h o r s   in   [3]   g i v e   n e ga t i v e   s e n s e   to   e m o t i o n s .   On   e xa m i ni n g   t h e   p h y s i o l o gi c a l   v i t a l   a c t i v i t i e s   in   h u m a n s   s u c h   as   t e m pe ra t u r e   s e n s i n g ,   e c g,   b l oo d   a n d   a i r   pr e s s u r e ,   pul s e   o xi m e t r y ,   e t c   w i t h i n   h u m a n   o r ga n s ,   as   w a s   s t udi e s   by   a ut h o r s   [4],   t h e   r e s e a r c h e r s   p r o po s e d   t h a t   e m o t i o n   r e c o gn i t i o n   can   be   a c c o m pl i s h e d   b a s e d   on   e xp r e s s i o n s   a n d   a c t i o n s   p r o duc e d   by   h um a n   b e i n gs .   T h e y   a l s o   i de n t i f i e d   a n d   p r o po s e d   t h a t   e m o t i o n s   v a ri a t i o n s   of   an   i n d i v i dua l   a r e   r e s po n s i b l e   fo r   v a r i a t i o n s   in   h u m a n   v o i c e   c h a ra c t e ri s t i c s   a n d   t hi s   f o l l ow s   t h a t   a   pe r s o n   c o ul d   be   i n v e s t i ga t e d   for   hi s   s e nt i m e nt s   a nd   e m o t i o n s   b a s e d   on   t h e s e   A udi o   V i de o   c h a ra c t e ri s t i c s .   T h e   t e c h ni que   is   to   de t e r m i n e   t h e   b a s i c   f r e que n c y   by   m i ni n g   a   pe r s o n s   e m o t i o n s   f r o m   hi s   s pe e c h   [5] .   D e pe n d i n g   on   w h e t h e r   t h e   pe r s o n   is   a   m a l e   or   f e m a l e   s i n c e   t h e   pi t c h   of   s o un d   for   a   m a l e   is   t h i c ke r   t ha n   f e m a l e ,   t h e r e f o r e   male   f r e que n c y   r a n ge   is   us ua l l y   80 - 160   Hz   a n d   t h a t   for   f e m a l e   is   150 - 250   H z .   S m a l l   c h i l d r e n   upt o   12   y e a r s   of   a ge   h a s   20 0 - 400   Hz   pi t c h   of   b a s i c   f r e que n c y .   P r e di c t i ng   a   pe r s o n s   e m o t i o n   w o ul d   a l s o   be   a c c o m pl i s h e d   by   o t h e r   s pe e c h   c h a ra c t e r i s t i c s   [6]   l i ke   qui c k n e s s   in   s pe e c h ,   its   qu a l i t y   a n d   f i na l l y   t h e   e n e r gy   c r i t e r i a   e i t h e r   s i ngl y   or   in   c o m b i n e d   s t a t e ,   t hus   a   s t r uc t u r e   is   c r e a t e d   de pe n di ng   on   t h e s e   s pe e c h   c h a ra c t e r i s t i c s   r e f e rr e d   to   as   D i a l e c t - de pe n de n t   S pe a ke r   M o de l s .   F e w   r e s e a r c h e r s   ha v e   c ove r e d   t h i s   di a l e c t   de t e r m i na t i o n   b a s e d   on   a   c o m pl e t e l y   n e w   s t r uc t u r e   w h e r e   s pe a ke r   is   c o n s i de r e d   t o t a l l y   an   e xc l us i v e   s pe a ke r   w h o   do e s   n o t   a p pl y   a n y   kn o w l e dge   a bo ut   t h e s e   f e a t u r e s .   T hi s   a n o n y m o us   pe r s pe c t i ve   is   un de r   r e s e a r c h   as   m e n t i o n e d   by   t h e   a ut h o r s   in   [7] .   T h e   c u rr e n t   r e s e a r c h   in   t e c hn o l o g y   de ve l o pm e n t s   in   t h e   a r e a   of   a udi o / s pe e c h   c o ul d   e nh a n c e   t h e   d ri v e r   c o n c e n t ra t i o n   by   us e   of   a udi o   s i g n a l i n g   w hi l e   d ri v i ng.   If   a   d r i v e r   is   e qu i ppe d   w i t h   an   a u di o   i n t e r f a c e   t h e n   it   is   po s s i b l e   fo r   d r i v e r   to   a v o i d   di s t r a c t i o n s   b ut   t h e r e   m a y   be   n o i s e   i nt e r f e r e n c e   t h e r e f o r e   v i s ua l   d a t a   c o ul d   be   a ppe n de d   to   i m p r o v e   t h e   us e r   i n t e r f a c e   by   i m a ge / v i de o   c a pt u r i ng,   r e c o r di n g   a n d   di s s e m i n a t i n g   b o t h   a udi o - v i s ua l   da t a   w h i c h   c o ul d   be   e xpe n s i v e .   An   A V I CA R   [8]   da t a b a s e   c o n t a i n s   r e s e a r c h   d a t a s e t   for   v e h i c ul a r   a u di o / v i s ua l   d a t a   b ut   due   to   t i m e l a g   b e t w e e n   a u di o   da t a   a n d   v i de o   da t a   s t r e a m s   it   is   n e e de d   to   h a v e   s y n c hr o ni z a t i o n   s i n c e   no   s pe c i f i c   pr o t o c o l   s uppo r t   e xi s t s   a n d   i t ’s   s t i l l   a   m a t t e r   of   e xpl o r i n g   n e w   w a y s   to   h a ndl e   t h i s   s i t u a t i o n.   S uc h   s y s t e m   w o ul d   o ffe r   s a f e t y   to   t h e   dri v e r   a n d   o t h e r   ri di n g   pe o pl e   in   l i f e - t hr e a t e n i ng   s i t u a t i o n s .   S o m e   Re s e a r c h e r s   a pp l i e d   t h e   s e n t i m e n t   or   e m o t i o n   i de n t i f i c a t i o n   [9]   a n d   h i d de m a r ko v   m o de l   (H M M )   [10]   fo r   c a t e go r i z i n g   t h e   e m o t i o n s   us i n g   t h e   a udi o   s i g n a l s   to   de vi s e   t h e   r e s ul t s   on   f o ur   e m o t i o n   c l a s s e s   a n a l y z i ng   ha ppy   or   a n g r y   m oo d,   s a d n e s s   a n d   a l s o   t h e   n e ut ra l .   F o r   c r e a t i n g   a n d   e v a l ua t i n g   n e w   m o de l s   a pp r o p r i a t e   da t a   us a ge   is   i m po rt a nt .   M a n y   da t a b a s e s   a r e   p r e s e nt e d   for   e m o t i o n   r e c o gni t i o n   a n d   f e w   a r e   o pe n   s o ur c e   [11] ,   e N T E R F A CE A ' 05   E M O T IO N   ( a ud i o - v i s ua l   da t a b a s e   c o n t a i ni n g   e m o t i o na l   c o n t e xt s ) .   In   [8] ,   a   s pe e c h   c o r pus   da t a b a s e   c o n t a i ni n g   m ul t i - c h a nn e l   a udi o - v i s ua l   r e c o r ds   is   pr o v i de d   (A V ICA R ),   gi ve n   by   t h e   r e s e a r c h e r s   in   uni v e r s i t y   of   Il l i n o i s   (2003 - 20 04).   In   [12 1 3]   t h e r e   is   IE M O CA P 1   da t a b a s e   for   m ul t i m o da l   i n f o r m a t i o n   c a pt u r e   m a i n t a i n e d   by   S A IL 2   lab   (U n i v e r s i t y   of   S o ut h e rn   C a l i f o r ni a ).   S A V E E   a ud i o - v i s ua l   da t a b a s e   c o n t a i n s   da t a   of   E n gl i s h   s pe a ke r s   w h o   a r e   na t i v e   m a l e s   of   a ge   27 - 31   y e a r s   a n d   a r e   r e p r e s e n t e d   w i t h   t h e   l a b e l s   in   [1 4]   K L ,   D C ,   DJ   a n d   J K .   E m o t i o n   is   de s i g na t e d   in   s e pa r a t e   s e ve n   (7)   c l a s s e s :   a nge r,   ha pp i n e s s ,   f e a r,   s u rp r i s e ,   s a d n e s s ,   ha t re d   a n d   n e u t r a l .   T h e   t e xt   m a t e ri a l   in   t h e   s t udy   c o n s i s t e d   of   a bo ut   120   u t t e r a n c e s   for   e v e r y   s pe a ke r   in   t h e   15   T IM IT   s e n t e n c e s   pe r   e m o t i o n   ut i l i z e d.   T hi s   a c c o un t e d   for   an   o v e r a l l   s i z e   of   480   ut t e r a n c e s   a nd   t h e   r e c o r d i n g   of   da t a   w a s   m a de   dy n a m i c a l l y .   An   o v e r a l l   60   p a i nt e d   m a r ke r s   o v e r   t h e   a c t o r s '   f r o nt a l   f a c e   w e r e   ut i l i z e d   on   f a c i a l   m a r ke r s .   T h e   d i s t r i b ut i o n   of   da t a b a s e   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   21 ,   N o .   3 M a r c 2 021   :     1 4 0 0   -   1 4 0 6   1402   in   F i gu r e   1   [15]   de pi c t s   t h e   e m o t i o n   c l a s s e s   in   w hi c h   c o l um n s   de n o t e   n um b e r   of   v i de o   f i l e s   c o n t a i ni n g   e m o t i o n a l   d a t a .   It   is   c l e a r l y   v i s i b l e   t ha t   a l l   e m o t i o n s   a r e   e qui v a l e n t   a p a rt   f r o m   n e ut ra l   s t a t e .           F i gu r e   1.   S A V E E   D a t a b a s e   e m o t i o n   c l a s s e s   di s t ri b ut i o n       3.   R ES EA R C H   M ET H O D S     3. 1 .     F e atu r e   e x tr ac ti o n   In   t h i s   s e c t i o n   we   r e v i e w   t h e   A udi o   a n d   V i de o   F e a t ur e   e xt r a c t i o n   m e t h o ds .   T h e   A udi o   F e a t u r e   E xt ra c t i o n   m e t h o ds   a r e   s um m a ri z e d   in   T a b l e   1   t h e n   t h e   V i de o   F e a t ur e   E x t r a c t i o n   f o l l o w s .   D e t e c t   F e a t u r e s   f un c t i o n   of   i m a ge   p r o c e s s i n g   a l go r i t hm s   c o ul d   be   us e d   to   e xt ra c t   t h e   f e a t ur e   of   an   i m a ge   b ut   t h e   di m e n s i o n   of   r e s ul t   o b t a i n e d   is   h i g h.   F a c e s   a r e   m a r ke d   by   s m a l l   b l ue   s i g ns   in   t h e   S A V E E   d a t a b a s e .   T h e   m a r ks   a r e   us e d   to   i de nt i fy   t h e   e s s e n t i a l   a n d   e ff e c t i v e   p o i n t s   in   de t e rm i n i n g   a   fa c i a l   e xp r e s s i o n   a n d   to   r e duc e   t h e   di m e n s i o n s   of   t h e   f e a t ur e s   e xt ra c t e d.   Co l o ur   t ra c ki n g   a l go ri t hm s   can   be   ut i l i z e d   to   f i n d   t h e s e   po i n t s .   A   s a m p l e   of   a   da t a b a s e   i m a ge   is   s h o w n   in   F i gu r e   2.         T a b l e   1 .   S u m m a r y   fe a t u r e s   o f   a udi o   f e a t ur e   e xt ra c t i o n   E n e r g y   a n d   re l a t e d   f e a t u re s   P i t c h   a n d   re l a t e d   f e a t u re s :   F o rm a n t ,   b a n d w i d t h   fo r   t h e   f i r s t   f o u r   f o r m a n t s   M e l - F r e q u e n c y   Ce p s t ru m   c o e ff i c i e n t s   T h i s   f a c t o i s   i m p o rt a n t   f o s p e e c h   s i g n a l s .   T o   o b t a i n   t h e   s t a t i s t i c s   o f   e n e rg y   i n   s p e e c h ,   i t s   v a l u e   p e r   f ra m e   h a s   t o   b e   e x t ra c t e d .   T h e re f o re   t h e   re s u l t a n t   s t a t i s t i c s   of   e n e rg y   l i k e   t h e   m a x i m u m   v a l u e ,   m i n i m u m   v a l u e ,   a v e ra g e   a n d   s t a n d a rd   d e v i a t i o n   [6 w i t h i n   t h e   w h o l e   s p e e c h   s a m p l e   a r e   o b t a i n e d   by   e v a l u a t i n g   t h e   e n e rg y .   P i t c h   is   an   i m p o rt a n t   f e a t u re   in   s p e e c h   e m o t i o n   re c o g n i t i o n .   T h e   s h a p e   of   v o c a l   c o r d s   a n d   how   t h e y   v i b ra t e   a re   a ff e c t e d   in   d i ffe re n t   e m o t i o n a l   s t a t e s .   S i n c e   p i t c h   d e p e n d s   on   v o c a l   c o rd s   t e n s i o n   a n d   p r e s s u re   u n d e r   l a ry n x ,   a n d   it   a l s o   c o n t a i n s   i n f o r m a t i o n   a b o u t   e m o t i o n .   P i t c h   s i g n a l   is   c a l l e d   g l o t t a l   w a v e - fo rm .   M a x i m u m m i n i m u m a v e ra g e   a n d   v a ri a t i o n   ra n g e   a r e   d i f fe r e n t   in   v a ri e t y   e m o t i o n .   f o r m a n t s   d e t e rm i n a t i o n   is   b a s e d   on   v o c a l   c o r d s   t h a t   is   a ffe c t e d   d i ff e r e n t l y   in   d i ffe re n t   e m o t i o n a l   s t a t e s .   F o r   i n s t a n c e ,   t h e   h i g h e s t   p e a k   s p e c t ra l   p e a k s   i n   t h e   s p e c t ru m   o f   s o u n d   is   t h e   f i r s t   f o r m a n t   f r e q u e n c y .   In   o t h e r   w o rd s ,   f o r m a n t   is   t h e   c o n c e n t ra t i o n   of   e n e r g y   a ro u n d   c e rt a i n   f r e q u e n c y .   L i n e a r   p re d i c t i v e   c o d i n g   m e t h o d   is   u s e d   fo r   fo rm a n t   c a l c u l a t i o n   [1 6 ].   T h i s   fe a t u re   i s   c o m m o n l y   u s e d   in   s p e e c h   w i t h   a   s i m p l e   c a l c u l a t i o n .   M e l   F re q u e n c y   Ce p s t ru m   h a s   an   a d e q u a t e   re s o l u t i o n   in   l o w   f r e q u e n c y   re g i o n   a n d   h a s   e n o r m o u s   re s i s t a n c e   t o w a rd s   n o i s e .   Bu t   a c c u ra c y   of   e m o t i o n   re c o g n i t i o n   i s   n o t   s a t i s f a c t o ry   [1 7 ].             F i gu r e   2.   A   s a m pl e   of   S A V E E   da t a b a s e   i m a ge   a n d   c o l o r   m a rke r   of   f a c e   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A   h y br i d   s t r a t e g y   f or   e m ot i on   c l as s i f i c a t i on   ( H us s ah  Nas s e r   A l e i s a )   1403   As   s h o w n   in   F i gu r e   2,   m a r ke r   on   t h e   e dge   of   n o s e   (e n c i r c l e d   in   b l a c k)   is   t a ke n   as   a   r e f e r e n c e .   It   is   c o n s i de r e d   as   t h e   c e n t r e   of   c oo r di n a t e ,   a n d   t h e   r e m a i n i ng   c o o r di na t e s   a r e   ob t a i n e d   b a s e d   on   it.   W i t h   e xt ra c t i o n   of   t h e s e   f e a t ur e s ,   i . e . ,   by   us i n g   t h e   s a m e   c o l o ur e d   po i n t s   m a r ke d   on   f a c e s   a   130 -   di m e n s i o na l   s e t   is   ob t a i n e d.   T h i s   d i m e n s i o n a l   s e t   i n c l ude s   o nl y   t hr e e   s pe a ke r s   (J K ,   D C,   D J ) .   It   is   due   to   t h e   f a c t   t h a t   65   c o l o ur e d   po i n t s   a r e   de t e c t e d   on   t h e i r   f a c e s .   H ow e ve r ,   60   po i nt s   can   be   de t e c t e d   a n d   v i s ua l i z e d   on   t h e   f o ur t h   s pe a ke r   f a c e   (K L );   t h e r e fo r e ,   e xt ra c t e d   f e a t u r e s   f r o m   hi s   r e l a t e d   f i l e s   i n c l ude   120   di m e n s i o n s .   To   a s s i m i l a t e   di m e n s i o n a l   f e a t ur e s ,   i de nt i fy   p o i n t s   of   di ffe r e n c e   a n d   t h e i r   c o o r di na t e   w e r e   r e m o ve d   f r o m   o t h e r   s pe a ke r s   f e a t u r e   f i l e s .   In   F i gu r e   3,   t h e   po i n t s   of   di f fe r e n c e   be t w e e n   t h e   f o ur t h   s pe a ke r   a n d   o t h e r s   (h e r e   is   J E ,   t h e   s e c o n d   fo r   e xa m p l e )   c a n   be   s e e n .   In   a ddi t i o n,   t h e   s e c o n d   s pe a ke r   f a c e   is   m a r ke d   w i t h   y e l l ow   c i r c l e s   to   c o m pa r e   w i t h   t h e   f o ur t h   s pe a ke r   f a c e .           F i gu r e   3.   Co m p a r e   m a r ke r s   of   t w o   s pe a ke r s   in   S A V E E   d a t a b a s e       3. 2 .     Em o ti o n   c l as s i fi c ati o n   M a n y   c l a s s i f i c a t i o n   a l go r i t h m s   a r e   b e i n g   p r o po s e d   by   r e s e a r c h e r s   o w i n g   to   t h e   w i de   p o pul a r i t y   a n d   a ppl i c a t i o n s   in   E m o t i o n   r e c o gn i t i o n   v i a   t h e   a ud i o .   S o m e   of   t h e s e   a l go r i t h m s   a r e   fo un d   in   t h e   fo l l ow i n g   pa pe r s   [1 0 ,   3 ,   18 - 20]   hi dde n   m a r ko v   m o de l   ( H M M ),   n e ura l   n e t w o r ks   a l go ri t hm   (N N ),   m a x i m um   l i ke l i h o o b a y e s i a n   c l a s s i f i e r   (M L C),   g a us s i a n   m i xt u r e   m o de l   (G M M ),   ke rn e l   r e g r e s s i o n ,   k - n e a r e s t   n e i g h b o r s   a l go ri t hm   (K N N ),   a nd   s up po r t   v e c t o r   m a c h i n e s   (S V M )   [ 21 ,   22] .   S V M   s t r uc t u r e s   h i g h - di m e n s i o n   v e c t o r s   w h i c h   is   a c t ua l l y   t h e   h y p e r pl a n e   max   di s t a n c e   in   t h e   v e c t o r   s pa c e .   A l t h o ugh   SVM   is   a   s i m p l e   a nd   e ff i c i e n t   a l go ri t hm   in   m a c hi n e   l e a rn i ng,   it   is   e xt e n s i v e l y   b e i n g   ut i l i z e d   in   re c o gn i z i n g   i s s ue s   in   c l a s s i f i c a t i o n   a n d   p a t t e rn   r e c o gn i t i o n.   It   o ut   pe r f o r m s   in   t e r m s   of   c l a s s i f i c a t i o n   a n d   t h e   c o m pa r i s o n   of   its   pe r f o r m a n c e   w i t h   o t h e r   c l a s s i f i e r s   b a s e d   on   t h e   s i m i l a r   t e rm s   w h e n   l i m i t e d   t r a i n i ng   da t a   is   e a s i l y   e v i de n t .   T h e r e f o r e   SVM   is   s e l e c t e d   as   t h e   c l a s s i f i e r   for   e m o t i o n   c l a s s i f i c a t i o n   to   a na l y z e   t h e   pr o b l e m   u n de r   s t udy .   T h e   t y pe   of   SVM   ( H a r d   m a r g i n )   is   a   n o n - l i n e a r   o n e   w h e r e a s   rh e r e   is   a n o t h e r   w hi c h   is   an   e xt e nde d   v e r s i o n   SVM   a n d   is   r e f e r r e d   to   as   s of t   m a rgi n   SVM   w h i c h   c o n t a i n s   t h e   de f i n i t i o n   of   a   pe n a l t y   c o e ff i c i e n t   (C)   for   da t a   i t e m s   ha v i n g   c l a s s   v i o l a t i o n .   A n o t h e r   SVM,   a   n o n - l i n e a r   is   b a s e d   on   K e rn e l   f un c t i o n   a n d   s e pa ra t e   di f f e r e n t   c l a s s e s .   F e a t u r e   s pa c e   c a l c ul a t i o n   c o ul d   be   e xpe n s i v e   b a s e d   on   s i z e   a nd   may   h a v e   un l i m i t e d   di m e n s i o n s .   T h us ,   t h e   ke rn e l   is   us e d   to   ove r c o m e   t h i s   p r o b l e m   w i t h   RBF   ke r n e l   f u n c t i o n,   t h e   us e   of   c h o i c e   of   t w o   pa ra m e t e r s   is   v e r y   i m po rt a nt   in   t hi s   f u n c t i o n.   P e n a l t y   C   in   c a s e   of   c o n f l i c t   a n d   c o n s t a nt   σ   in   K e rn e l   F u n c t i o n   [18 ,   19]   a r e   i de nt i f i e d,   t h e n   t h e   c l a s s i f i e r   c a n   p r e di c t   e m o t i o n s   c o m pa r a t i v e l y   a c c ur a t e l y .   M o r e   t h a n   t w o   c l a s s e s   a r e   us e d   in   OAA   a l go r i t hm   by   ge n e r a l i z i n g   SVM   [15 ,   16] .     3. 2 . 1.     Em o ti o n   c l as s i fi c ati o n   b as e d   on   au d i o   fe atu r e s   In   t h i s   s t udy   s e ve n   m a i n   e m o t i o n s   ha v e   be e n   us e d   fo r   i de nt i fy i n g   e m o t i o n s :   h a p pi n e s s ,   s a d n e s s ,   a n ge r,   f e a r,   d i s gus t ,   s u r p r i s e   a nd   n e ut ra l .   D i f f e r e n t   v a r i a t i o n s   a r e   c r e a t e d   in   h u m a n   v o i c e   f e a t ur e s   s uc h   as   pi t c h ,   e n e r gy   a n d   s pe c t r um   in   v a r i o us   e m o t i o na l   s t a t e s .   I ni t i a l l y   a udi o   f e a t ur e s   a r e   e xt r a c t e d   us i n g   o n e   of   t h e   f e a t ur e   s e l e c t i o n   m e t h o ds .   So   m o r e   e ffe c t i ve   f e a t ur e s   c a n   be   s e l e c t e d.   In   t hi s   s t udy ,   z - s c o r e   m e t h o d   of   n o rm a l i z e d   h a s   b e e n   us e d.   G e n e r a l l y ,   c l a s s i f i c a t i o n   us e s   o n l y   a udi o   f e a t ur e s   w i t h   121   a udi o   f e a t u r e s   i n c l udi ng   e n e r gy ,   pi t c h,   f o r m a n t ,   c o e f f i c i e n t   M e l   a n d   s pe e d   of   s pe e c h   a n d   v a l ue s   a s s o c i a t e d   w i t h   t h e m .   T h e s e   f e a t ur e s   ha v e   be e n   s e l e c t e d   as   t h e y   a r e   c o m m o n   in   m o s t   of   w o r ks   do n e   in   t hi s   a r e a   a n d   t h e   e xpe ri m e n t s   a r e   r e pe a t e d   on   m u l t i pl e   c h o i c e s   of   a udi o   fe a t ur e s .   A   c l a s s i f i c a t i o n   t a s k   us ua l l y   i n v o l v e s   s e pa ra t i n g   da t a   i nt o   t r a i ni n g   a n d   t e s t i n g   s e t s   so   t h e   c l a s s i f i c a t i o n s   w e r e   do n e   by   7 - f o l d   Cr o s s - V a l i da t i o n   a nd   t h e y   w e r e   e xa m i n e d   by   di ffe r e nt   v a l ue s   of   s i gm a   ( σ )   t o o .   In   s e c t i o n   6,   t h e   r e s ul t s   of   e xpe r i m e n t s   a r e   i n v e s t i ga t e d.       3. 2 . 2.     Em o ti o n   c l as s i fi c ati o n   on   au d i o - v i s u al   fe atu r e s   (h y b r i d   ap p r o ac h )   In   t he   s e c o nd   p ha s e ,   c l a s s i f i c a t i o n   is   d o ne   by   c o m b i na t i o n   b o t h   a u d i o   a nd   v i d e o   f e a t u re s .   In   o t he r   w o rd s ,   p a r t   of   t he   w o rk   is   c o m m o n   w i t h   c l a s s i f i c a t i o n   b a s e d   on   o nl y   a u d i o   f e a t u re s .   In   t hi s   p h a s e ,   e x t ra c t i o n   of   f e a t u re s   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   21 ,   N o .   3 M a r c 2 021   :     1 4 0 0   -   1 4 0 6   1404   m u s t   be   do ne   f i rs t ,   a nd   t he   p ro c e s s   of   d i m e ns i o n   re d u c t i o n   m u s t   be   a c c o m p l i s he d .   F i na l l y ,   no rm a l i z a t i o n   s ho u l d   t a k e   p l a c e .   T he   v e c t o rs   ha v e   b e e n   c re a t e d   f ro m   e x t ra c t e d   f e a t u re s   w hi c h   ha s   b e e n   u s e d   to   t ra i n   SVM   in   hy b ri d   a p p ro a c h   s ho u l d   u s e   a u d i o   f e a t u re s   v e c t o rs   a nd   v i d e o   f e a t u re s   v e c t o rs   s i m u l t a ne o u s l y .   A   m o d e l   is   c re a t e d   b a s e d   on   SVM   c l a s s i f i e r   a nd   m u l t i - c l a s s i f i c a t i o n   do ne   by   O A A   a l go ri t hm .   7 - f o l d   c ro s s   v a l i d a t i o n   ha s   b e e n   u s e d   f o r   d e t e rm i ni ng   t ra i ni ng   a nd   t e s t i ng   d a t a   s e t s .   T he   c l a s s i f i c a t i o n   a c c u ra c y   c a n   be   i m p ro v e d   by   a p p ro p ri a t e   s o l u t i o ns   i nc l u d i ng   c ha ng e s   in   s e l e c t e d   f e a t u re s   a nd   c he c k i ng   o t he r   w a y s   f o r   f e a t u re   e x t ra c t i o n.       4.   R ES U LTS   AND   DISCUSSIO N   T h e   e xpe ri m e n t s   w e r e   c o n duc t e d   on   M A T L A B   in   w hi c h   e duc a t i o n a l   a l go ri t hm s   [1 7]   of   t h e   U n i v e r s i t y   of   Ro c h e s t e r   w e r e   a ppl i e d   to   e xt ra c t   a ud i o   fe a t ure s .   T h e s e   w e r e   a ppl i e d   to   i m p r o v e   p e r f o r m a n c e   of   S V M s ,   l i ke   O n e - A ga i n s t - A l l .   U s i n g   d i f fe r e nt   ke rn e l s   ha d   e xc e l l e n t   r e s ul t s   to   s o l v e   SVM   pr ob l e m s   i n c l udi ng   t h e   a ppl i c a t i o n   of   p o l y n o m i a l   ke rn e l   [15]   in   r e s e a r c h .   T h e y   c o ul d   i m p r o v e   c l a s s i f i c a t i o n   a c c ur a c y   by   i n c r e a s i ng   f o ur   pe r c e n t   (4%) .   Co m pa r e d   to   o t h e r   c l a s s i f i c a t i o n   m e t h o ds ,   s uppo rt   v e c t o r   m a c h i n e   m e t h o d   SVM   pr o v e d   to   be   e f fe c t i ve   a n d   po pul a r.   In   t h i s   r e s e a r c h,   t h e   v i s ua l   f e a t u r e s   pr e s e nt e d   in   t h e   S A V E E   da t a b a s e   h a v e   be e n   us e d.   T h e r e   a r e   s e ve r a l   t o o l   bo xe s   to   e a s i l y   w o r k   fo r   a udi o   a n d   v i de o   f e a t ur e s   e xt ra c t i o n   s uc h   as   O pe n   S M IL E   (a n d   P r a a t   for   a udi o   f e a t ur e s )   a n d   O p e n CV   for   v i de o   fe a t ur e s   t h a t   can   be   us e d   i n s t e a d   of   w r i t i ng   a l go r i t hm   in   s e c t i o n   f e a t u r e   e x t r a c t i o n .   T h i s   s t udy   us e s   a   l i m i t e d   num b e r   of   f e a t ur e s   a n d   h a s   a c h i e ve d   goo d   r e s ul t s   c o m pa r e d   w i t h   o t h e r   e m o t i o n   c l a s s i f i e r s   w h i c h   a r e   b a s e d   on   a udi o   or   a udi o - v i s ua l .   F o r   t h e   f i r s t   s t a ge ,   c l a s s i f i c a t i o n   w a s   d o n e   o n l y   w i t h   a ud i o   f e a t ur e s   in   d i f fe r e nt   c o n d i t i o n s .   D i f f e r e n t   a n d   r e m a r ka b l e   r e s ul t s   w e r e   ob t a i n e d.   T a b l e   2   s h o w s   t h e   r e s ul t   of   c l a s s i f i c a t i o n   b a s e d   on   j us t   a ud i o   f e a t ur e s .   In   t hi s   s t udy ,   we   c o n s i de r e d   σ = 9   a n d   t hr e e   d i f fe r e nt   s t a t e s   of   a udi o   f e a t ur e s .   A c c o r di n g   to   T a b l e   2,   if   t h e   s e l e c t e d   a udi o   f e a t u r e s   a r e   t a ke n   e n e r gy   a n d   pi t c h,   t h e   c l a s s i f i c a t i o n   a c c ur a c y   is   75. 62%.   W hi l e   a dd i n g   f o r m a nt s   to   a udi o   fe a t ur e s   s e t   a n d   r e t e s t i ng,   c l a s s i f i c a t i o n   a c c ur a c y   is   i n c r e a s e d   to   82. 68% .   N e xt ,   c l a s s i f i c a t i o n   is   do n e   w i t h   n e w   fe a t ur e s   s e t ,   t hi s   t i m e   t a ki ng   i nt o   a c c o un t   M F CC   a n d   s pe e d   of   s p e e c h   in   a ddi t i o n   e n e rgy ,   pi t c h   a n d   f o r m a n t s   f e a t u r e s   it   can   be   s e e n   t ha t   c l a s s i f i c a t i o n   a c c u r a c y   i n c r e a s e s   b a s e d   on   t h e   r e s ul t   s h o w n   a n d   i t s   v a l ue   of   91%.     E m o t i o n   c l a s s i f i c a t i o n   w a s   do n e   a ga i n   w i t h   t h e   s a m e   a ud i o   fe a t u r e s ,   b ut   di f f e r e n t   v a l ue s   of   σ.   V a l ue s   c o n s i de r e d   fo r   σ   w e r e   5,   6. 5,   8. 5,   9,   10 ,   of   w h i c h   8 . 5   a c h i e v e d   t h e   be s t   r e s ul t .   T a b l e   3   s h ow s   ove r a l l   r e s ul t   of   m o de l s   w i t h   t hr e e   v a l ue s   of   s i gm a .   M a xi m u m   a n m i n i m u m   c l a s s i f i c a t i o n   a c c u r a c y   of   s e v e n   e m o t i o n s   w i t h   o n l y   a udi o   fe a t u r e s   a r e   91. 6 3%  f o r   t h e   m o de l   w i t h   a ud i o   fe a t ur e s   e n e r gy ,   pi t c h ,   f o r m a nt s ,   M e l - F r e que n c y   C e ps t r u m   c oe ff i c i e n t s ,   s pe e a n s i gm a   a s   8. a nd  75. 49  f o r   t h e   m o de l   w i t h   a udi o   f e a t ur e s   e n e r gy ,   pi t c h   a n s i gm a   a s   8 . 5 ,   r e s pe c t i v e l y .   F i na l l y ,   w e   w a n t e t o   t e s t   t h e   i m pa c t   o f   a ddi n g   v i de o   fe a t ur e s   o t h e   a c c ur a c y .   T h us ,   w e   r e pe a t e e xpe r i m e nt s   a n c ha n ge t h e   n u m b e r   o f   f e a t ur e s   a n s i g m a   w i t h   a ud i o   a n v i s ua l   f e a t u r e s   t o ge t h e r.   T h e   r e s ul t s   a r e   s um m a r i z e i T a b l e   4.       T a b l e   2.   A ud i o   c l a s s i f i c a t i o n   for   s e v e n   e m o t i o n   t y p e s   F e a t u re s   Cl a s s e s   s i g m a   )= 9     E n e r g y / P i t c h     E n e r g y / P i t c h F o r m a n t   E n e r g y / P i t c h /   F o rm a n t / M F CC s   S a d n e s s   6 4 . 9 7   8 4 . 9 4   9 3 . 9 7   H a p p i n e s s   7 3 . 9 8   7 6 . 8 7   8 8 . 9 3   A n g e r   8 8 . 5 3   8 8 . 3 3   9 3 . 0 8   F e a r   7 4 . 5 5   8 5 . 0 1   8 9 . 1 0   D i s g u s t   5 6 . 3 7   7 0 . 8 9   8 9 . 9 5   N a t u r a l   8 4 . 0 1   8 7 . 3 1   8 8 . 9 9   S u rp ri s e   8 4 . 9 9   8 9 . 1 3   9 3 . 2 9   A c c u ra c y   7 5 . 3 5   8 3 . 2 1   9 0 . 5 7       T a b l e   3 .   A c c ura c y   w i t o n l y   a udi o   f e a t u r e s   a nd  di f fe r e nt   a m o u n t   o f   s i gm a   )     T a b l e   4 .   M o de l s   a c c u r a c y   by   a u di o - v i s ua l   f e a t u r e s   w i t di f f e r e n t   a m o unt   o f   s i gm a   ( σ )   A u d i o   F e a t u re s     A u d i o - V i s u a l   F e a t u re s   ( S ig m a   E n e r g y / P i t c h   E n e r g y / P i t c h /   F o rm a n t   E n e r g y / P i t c h /   F o rm a n t / M F CC s     ( S i g m a   E n e r g y / P i t c h /   VF   E n e r g y / P i t c h /   F o rm a n t ,   VF   E n e r g y / P i t c h / F o r m a n t / M F CCs ,   VF   5   8 1 . 2 8   8 8 . 7 7   8 9 . 6 9     5 . 0 0   9 8 . 8 5   9 6 . 7 5   9 0 . 1 1   6 . 5   7 7 . 4 9   8 6 . 5   9 1 . 0 3     6 . 5 0   9 9 . 2 6   9 7 . 7 6   9 5 . 0 3   8 . 5   7 5 . 4 9   8 3 . 4 4   9 1 . 6 3     8 . 5 0   9 9 . 2 6   9 8 . 8 1   9 8 . 1 1   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       A   h y br i d   s t r a t e g y   f or   e m ot i on   c l as s i f i c a t i on   ( H us s ah  Nas s e r   A l e i s a )   1405   T h e   m a xi m u m   c l a s s i f i c a t i o n   a c c ura c y   of   s e ve n   e m o t i o n s   by   t h e   h y b r i d   a pp r o a c h   is   99 . 26%   a c h i e v e d   f r o m   t h e   m o de l   w i t h   e n e r gy ,   pi t c h   as   a udi o   f e a t u r e s   a n d   v i de o   fe a t u r e s   a n d   s i gm a   as   6. 5 .   Cl a s s i f i c a t i o n   a c c ur a c y   w i t h   t h e   s a m e   c o n d i t i o n s   b ut   us i n g   o n l y   a udi o   f e a t u r e s   w a s   77 . 49 .   T h e   m i n i m u m   a c c ur a c y   w a s   90. 06 %   o b t a i n e d   f r o m   t h e   m o de l   w i t h   e n e r gy ,   pi t c h ,   f orm a nt s ,   M e l - F r e que n c y   Ce ps t r um   c o e ff i c i e n t s   (M F CC),   s pe e d   as   a udi o   f e a t ur e s   a n d   v i de o   f e a t ur e s   a n d   s i g m a   as   5.   U s i n g   t h e   s a m e   c o n di t i o n s   c l a s s i f i c a t i o n   a c c ur a c y   w i t h   o nl y   a udi o   f e a t ur e s   w a s   89. 69% .   T h e   c o m pa r i s o n   of   c l a s s i f i c a t i o n s   b a s e d   on   o n l y   a udi o   f e a t ur e s   to   t h e   h y b r i d   a pp r o a c h   (c l a s s i f i c a t i o n   on   a udi o - v i s ua l   f e a t u r e s )   de t e r m i n e s   t h a t   t h e   h y b r i d   a pp r o a c h   i n c r e a s e s   c l a s s i f i c a t i o n   a c c u r a c y   in   a l l   t hr e e   m o de l s .   T h e r e for e ,   t h e   p r o po s e d   h y b r i d   a pp r o a c h   p r o duc e d   m o r e   pr o m i s i n g   r e s ul t s   [23 ,   24]   us e d   a udi o   s i g n a l s   fo r   e m o t i o n   re c o gn i t i o n   in   t h e i r   w o r k   a n d   S A V E E   da t a b a s e .   S e l e c t e d   f e a t ur e s   in   t h e   p r o j e c t   a r e   m a i nl y   r e l a t e d   to   e n e rgy ,   pi t c h,   a nd   s t a t i s t i c s   a nd   s pe c t ra l   f e a t u r e s   M F CC   as   w e l l .   T h e y   r e c o gn i z e d   e m o t i o n s   [2 5]   by   us i n g   l i n e a r   ke rn e l   w i t h   b i n a r y   t r e e   c l a s s i f i c a t i o n   s t r a t e gy   O n e   A ga i n s t   O n e   (O A O )   a n d   O n e   A ga i n s t   A l l   (O A s ).   T h e   b e s t   r e s ul t s   of   t ha t   w o r k   a n d   t hi s   r e s e a r c h   w i t h   t h e   s a m e   n u m b e r   of   c o m m o n   da t a   a nd   t h e   s a m e   a udi o   fe a t u r e s   a r e   s h o w n   in   T a b l e   5.   By   OAO   c o m pa ri n g   t h e   r e s ul t s   in   T a b l e   5,   a   go o d   pe r f o r m a n c e   of   c l a s s i f i c a t i o n   by   h y b r i d   a pp r o a c h   w i t h   t h e   a udi o - v i s ua l   f e a t u r e s   can   be   s e e n .       T a b l e   5.   Co m p a r i ng   S i ni t h ’s   p r o j e c t   w i t h   t h e   p r o po s e d   h y b r i d   a p p r o a c h   Cl a s s   S i n i t h 's   w o rk   H y b ri d   a p p ro a c h   A n g e r   65   9 6 . 5 5   H a p p i n e s s   45   9 8 . 7 8   N a t u r a l   70   9 8 . 7 8   S a d n e s s   65   9 7 . 5   A c c u ra c y   6 1 . 2 5   9 7 . 9       T h e   b e s t   a c c ur a c y   in   S i ni t h’s   w o r k   by   S A V E E   da t a b a s e   us i n g   l i n e a r   ke rn e l   a n d   b i n a r y   t r e e   is   61. 25 %,   w h i l e   t h e   p r o po s e d   h y b r i d   m e t h o d   b a s e d   on   t h e   s a m e   da t a b a s e ,   e xh i b i t s   an   a c c ura c y   e qua l s   to   97. 90 %.   In   a n o t h e r   w o r k   gi v e n   by   Ch a nd n e y   [10]   a n d   t e a m   to   r e c o gn i z e   e m o t i o n   w hi c h   us e s   H i dde n   M a r ko v   m o de l   a n d   S A V E E   d a t a b a s e   r e f e r e n c i n g   f o ur   c l a s s e s :   s u r p ri s e ,   s a d n e s s ,   f e a r   a nd   d i s gus t .   H ow e v e r   t h e   w o r k   us e d   o n l y   o n e   a udi o   f e a t ur e   to   r e c o gn i z e   e m o t i o n s ,   M F CC   fo r   w h i c h   a c c u r a c y   r a t e   of   e m o t i o n   r e c o gn i t i o n   w a s   94. 17%   on   t h e   o t h e r   ha n d   t h e   w i t h   s a m e   da t a b a s e   a n d   s a m e   f e a t ur e   t h e   n e w   h y b r i d   a pp r o a c h   h a d   ra i s e d   to   97. 82 %   a c c ura c y .   T h e   c o m pa ri s o n   a n d   r e s ul t s   a r e   de pi c t e d   in   T a b l e   6.       T a b l e   6.   C ha n d ni ’s   p r o j e c t   Vs   H y b r i d   a pp r o a c h   Cl a s s   Ch a n d n i 's   w o rk   H y b ri d   a p p ro ach   A n g e r   90   9 8 . 2 4   H a p p i n e s s   1 0 0   9 9 . 0 9   N a t u r a l   97   9 4 . 7 8   S a d n e s s   90   9 9 . 1 8   A c c u ra c y   9 4 . 1 7   9 7 . 8 2       5.   C O N C LU S I O N   T h i s   pa pe r   s t udi e d   v a ri o us   e m o t i o n   c l a s s i f i c a t i o n   t e c hn i que s   a n d   p r o po s e d   a   h y b r i d   t e c hn i que   fo r   c l a s s i f i c a t i o n   of   h um a n   e m o t i o n s   w h i c h   is   t h e   m o s t   c h a l l e ngi n g   t a s k   in   r e a l   t i m e   s i t ua t i o n.   We   de t e r m i n e d   o ur   r e s ul s   b a s e   d   on   a   h y b r i d   c r i t e ri a   t h a t   c o m b i n e d   a ud i o   a n d   v i de o   da t a   on   a   SVM   c l a s s i f i e r   a nd   t h e   i m p r o v e m e n t   on   t h e   on   t h e   da t a   we   us e d   w a s   i n v i n c i b l e   a nd   ul t i m a t e l y   it   w a s   s e e n   t h a t   t h e   pr o po s e d   a ppr o a c h   o ut pe r f o r m s   w i t h   an   a c c ur a c y   of   99. 16   pe r c e n t ,   a   r e s ul t   m o re   t h a n   t h e   r e s e a r c h   s t ud i e s   c urr e nt l y   a v a i l a b l e   in   t h e   r e c e n t   t i m e s .   T hi s   s t udy   h a s   gi v e n   an   e m o t i o n   r e c o gn i t i o n   s y s t e m   w h i c h   is   i nde pe n de n t   of   s pe a ke r   a n d   l a n gu a ge   us e d,   a l s o   t h e   t w o   a udi o   f e a t ur e s   c o n s i de r e d   in   t he   s t ud y   a r e   pr o s o di c   a n d   s pe c t ra l   f e a t u r e s   un l i ke   t h e   e xi s t i ng   r e s e a r c h e s   us i ng   d i f fe r e nt   a udi o   f e a t u r e s   in   c l a s s i f i c a t i o n   a n d   e m o t i o n   r e c o gn i t i o n .   T h e   f ut u r e   pl a n   is   to   i n v e s t i ga t e   e m o t i o n   r e c o gn i t i o n   w i t h   a   di f f e r e n t   pe r s pe c t i v e   of   di a l e c t   a n d   l a ngua ge   i m p a c t   on   e m o t i o n   r e c o gn i t i o n.   A l s o   we   w a n t   to   e xpe ri m e n t   t h e   r e s ul t s   of   r e c o gn i z i n g   e m o t i o n s   a nd   a na l y z i n g   a udi o   f e a t ur e s   in   v a ri o us   o t h e r   l a n g ua ge s   to   c h e c k   w h e t h e r   it   c o ul d   e nh a n c e   t h e   a c c ura c y   of   t h e   c l a s s i f i e r .   A n o t h e r   i m p r o v e m e n t   w o ul d   s t ud y i n g   t h e   i n f l ue n c e   of   t h e   a c c e n t   on   e m o t i o n   e xp r e s s i o n   a n d   r e c o gn i t i o n   for   a udi o   f e a t ur e s .   F ut u r e   r e s e a r c h   is   c o n c e rn e d   w i t h   t h e   n e e d   to   c r e a t e   s pe c i a l i z e d   da t a b a s e s   fo r   di f fe r e n t   l a n gu a ge s   to   be   c o n s i de r e d   a n d   t h e n   t h e   e ff e c t i v e   fe a t ur e s   in   a n y   c h o s e n   l a n gu a ge   c o ul d   be   a na l y z e d   f r o m   t h e   a v a i l a b l e   da t a b a s e .       Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   21 ,   N o .   3 M a r c 2 021   :     1 4 0 0   -   1 4 0 6   1406   A C K N O WL ED G E M EN TS     T h i s   r e s e a r c h   is   f u n de d   by   w a s   f un de d   by   t h e   D e a n s hi p   of   S c i e n t i f i c   R e s e a r c h   at   P ri n c e s s   N o ur a h   b i n t   A b dul r a hm a n   U ni v e r s i t y   t hr o ug h   t h e   F a s t - t ra c k   R e s e a r c h   F u ndi n g   P r o gra m   a nd   I   am   t h a nkf ul   to   t h e   R e s e a r c h   U n i t   for   e n c o ur a g i n g   a n d   gi v i n g   t h e   w o m e n   re s e a r c h e r s   o ppo r t u ni t i e s   to   do   t h e   r e s e a r c h   in   upc o m i n g   a r e a s   s uc h   as   I m a ge   P r o c e s s i n g   a nd   m a ke   t h e i r   c ont r i b ut i o n s .       R EF ER EN C ES   [ 1]   V e r v e r i di s   et   al   ,   E m o t i o na l   s p e e c h   r e c og ni t i o n:   R e s o ur c e s ,   f e a t ur e s ,   a nd   m e t ho ds ,   Spe e c h   C om m un i c a t i on ,   v o l .   48,   no .   9,   pp.   1 162 - 118 1,   20 06 .     [ 2]   B ha s k a r ,   J a s m i ne ,   e t . a l ,   H y br i d   A ppr o a c h   f o r   E m o t i o n   C l a s s i f i c a t i o n   of   A udi o   C o nv e r s a t i o n   B a s e d   on   T e x t   a nd   S pe e c h   M i ni ng ,   P r oc e di a   C om pu t e r   Sc i e nc e ,   v o l .   46 ,   pp.   6 35 - 643 ,   201 5.     [ 3]   E.   H.   J a ng ,   e t . a l ,   E m o t i o n   c l a s s i f i c a t i o n   b a s e d   on   phy s i o l og i c a l   s i g na l s   i nd uc e d   by   ne g a t i v e   e m o t i o ns :   D i s c r i m i na nt i o n   of   ne g a t i v e   e m o t i o ns   by   m a c hi ne   l e a r ni ng ,   in   N e t w or k i ng ,   Se ns i n g   an d   C o nt r ol   ( I C N SC ) ,   201 2   9t h   I E E E   I nt e r na t i o na l   C o nf e r e nc e   on   B e i j i ng ,   2 012 .   [ 4]   C.   P a r l a k.   a nd   B.   D i r i ,   E m o t i o n   r e c o g ni t i o n   f r o m   t he   h um a n   v o i c e ,   in   S i g nal   P r o c e s s i ng   an d   C om m un i c a t i on s   A ppl i c a t i ons   C o nf e r e nc e   ( SI U ) ,   20 13   21s t ,   2013 .     [ 5]   E.   A y a di ,   e t .   a l ,   S u r v e y   on   s pe e c h   e m o t i o n   r e c og ni t i o n:   F e a t u r e s ,   c l a s s i f i c a t i o n   s c he m e s ,   a n d   d a t a ba s e s ,   P at t e r R e c og ni t i on v o l .   44 ,   no .   3,   pp .   572 - 587 ,   201 1.     [ 6]   P a t h a k   B.   V.   S . ,   et   a l . , E x t r a c t i o n   of   P i t c h   a n d   F o r m a n t s   a n d   i t s   A na l y s i s   to   I de nt i f y   T hr e e   D i f f e r e n t   E m o t i o na l   S t a t e s   of   a   P e r s o n”   I n t e r na t i o nal   J our nal   of   C om pu t e r   S c i e nc e ,   v o l .   9 ,   no .   4 ,   pp .   2 96 - 299 ,   2012 .     [ 7]   C.   L i j i a ng ,   e t . a l ,   S pe e c h   e m o t i o n   r e c o g ni t i o n:   F e a t ur e s   a nd   c l a s s i f i c a t i o n   m o de l s ,   D i g i t al   Si gna l   P r oc e s s i n g ,   v o l .   22,   no .   6,   pp.   1 154 - 116 0,   20 12 .     [ 8]   N.   R a j i t ha ,   e t . a l . ,   R e c og ni s i ng   a udi o - v i s ua l   s pe e c h   in   v e hi c l e s   u s i ng   t he   A V I C A R   da t a ba s e ,   in   P r oc e e di ngs   of   t he   13 t h   A u s t r al as i an   I nt e r na t i ona l   C on f e r e nc e   on   Spe e c h   S c i e nc e   and   T e c hno l ogy   M e l bo ur ne ,   V i c ,   20 10 .     [ 9]   M.   S.   S i n i t h,   e t .   a l ,   E m o t i o n   r e c og ni t i o n   f r o m   a udi o   s i g na l s   us i n g   S uppo r t   V e c t o r   M a c hi ne ,   in   I E E E   R e c e nt   A dv an c e s   in   I n t e l l i ge nt   C om p ut a t i ona l   Sy s t e m s   ( R A I C S)   T r i v and r u m ,   2 015 .     [ 10]   G.   C ha n dn i ,   e t .   a l ,   A n   a ut o m a t i c   e m o t i o n   r e c o g ni z e r   us i ng   M F C C s   a nd   H i dd e n   M a r ko v   M o de l s ,   in   U l t r a   M ode r n   T e l e c om m un i c at i on s   and   C o nt r ol   S y s t e m s   and   W or k s ho ps   ( I C U M T ) ,   20 15   7t h   I nt e r na t i o na l   C o ng r e s s   on   B r no ,   2015 .     [ 11]   e N T E R F A C E ' 05   E M O T I O N   D a t a ba s e ,   [ O n l i n e ] .   A v a i l a bl e :   ht t p: / / w w w . e n t e r f a c e . n e t / e n t e r f a c e 05/ . .   [ 12]   C.   B us s o ,   e t .   A l ,   I E M O C A P :   i nt e r a c t i v e   e m o t i o na l   dy a di c   m o t i o n   c a pt u r e   d a t a ba s e ,   L angu age   R e s our c e s   and   E v al uat i on ,   v o l .   4 2,   pp .   335 - 35 9,   20 08 .     [ 13]   A.   M e t a l l i no u,   et   a l ,   V i s ua l   e m o t i o n   r e c o g ni t i o n   us i ng   c o m pa c t   f a c i a l   r e pr e s e nt a t i o ns   a nd   v i s e m e   i nf o r m a t i o n ,   in   2010   I E E E   I n t e r na t i ona l   C onf e r e nc e   on   A c ou s t i c s ,   Spe e c h   a nd   Si gnal   P r oc e s s i ng ,   201 0.     [ 14]   S A V E E   D a t a ba s e ,   [ O n l i n e ] .   A v a i l a b l e : h t t p: / / k a h l a n . e ps . s u rr e y . a c . uk/ s a v e e / D a t a b a s e . ht m l .   [ 15]   M.   S i do r o v ,   et   a l ,   F e a t u r e   a nd   de c i s i o n   l e v e l . a ud i o - v i s ua l   d a t a   f us i o n   in   e m o t i o n   r e c og ni t i o n   p r o bl e m ,   i n   I nf or m a t i c s   in   C o nt r ol ,   A u t om a t i on   a nd   R ob ot i c s   ( I C I N C O ) ,   201 5   12t h   I nt e r na t i o na l   C o nf e r e nc e   on   C o l m a r ,   2015 .     [ 16]   N.   Y a ng ,   e t .   a l ,   S pe e c h - ba s e d   e m o t i o n   c l a s s i f i c a t i o n   u s i ng   m ul t i c l a s s   S V M   w i t h   hy br i d   k e r ne l   a n d   t hr e s ho l d i ng   f us i o n,   in   Spok e n   L an guage   T e c h no l ogy   W or k s h op   ( SL T ) ,   2012   I E E E   M i a m i ,   F L ,   201 2.     [ 17]   Y.   P a n ,   e t .   a l ,   S pe e c h   E m o t i o n   R e c og ni t i o n   U s i ng   S uppo r t   V e c t o r   M a c hi n e ,   I n t e r na t i ona l   J o ur n al   of   Sm a r t   H om e ,   v o l .   6,   no .   2,   pp .   101 - 10 8,   20 12 .     [ 18]   E.   S o po v   a nd   I.   I v a nov ,   e l f - C o nf i g ur i ng   E ns e m b l e   of   N e ur a l   N e t w o r k   C l a s s i f i e r s   f o r   E m o t i o n   R e c o g ni t i o n   in   t he   I nt e l l i g e nt   H um a n - M a c hi n e   I nt e r a c t i o n,   in   C om p ut at i ona l   I n t e l l i ge nc e ,   2 015   I E E E   S y m p o s i um   S e r i e s   on   C a pe   T o w n,   2015 .   [ 19]   S.   A g r a w a l   a nd   S.   D o ng a o nka r ,   E m o t i o n   r e c og ni t i o n   f r o m   s pe e c h   us i ng   G a us s i a n   M i xt u r e   M o de l   a nd   v e c t o r   qua n t i z a t i o n,   in   R e l i a bi l i t y ,   I n f oc om   T e c hno l o gi e s   and   O pt i m i z a t i on   ( I C R I T O )   ( T r e nds   and   F ut ur e   D i r e c t i on s ) ,   2015   4t h   I nt e r na t i o na l   C o nf e r e nc e   on   N o i d a ,   2 015 .     [ 20]     M.   R.   M e hm o o d   a nd   H.   J.   L e e ,   E m o t i o n   c l a s s i f i c a t i o n   of   EEG   br a i n   s i g na l   us i ng   S V M   a nd   K N N ,   in   M u l t i m e di a   &   E x po   W or k s h ops   ( I C M E W ) ,   2015   I E E E   I nt e r na t i o na l   C o nf e r e nc e   on   T ur i n ,   I t a l y ,   2015 .     [ 21]     N.   R.   K a n t h   a n d   S.   S a r a s w a t h i ,   E f f i c i e n t   s pe e c h   e m o t i o n   r e c o g n i t i o n   us i ng   bi na r y   s uppo r t   v e c t o r   m a c hi ne s   &   m ul t i c l a s s   S V M ,   I E E E   I n t e r na t i ona l   C onf e r e nc e   on   C om pu t a t i ona l   I n t e l l i ge nc e   an d   C om p ut i ng   R e s e ar c h   ( I C C I C ) ,   M a dur a i ,   201 5.     [ 22]   A.   M e t a l l i no u,   e t .   a l ,   C o nt e x t - s e ns i t i v e   l e a r n i ng   f o r   e nha nc e d   a udi o v i s u a l   e m o t i o n   c l a s s i f i c a t i o n   ( E x t e n de d   a bs t r a c t ) ,   in   A f f e c t i v e   C om pu t i n g   a nd   I nt e l l i ge nt   I n t e r ac t i o n   ( A C I I ) ,   2015   I nt e r n a t i o na l   C o nf e r e nc e   on   X i ' a n,   2015 .     [ 23]   Y.   C ha v ha n ,   M.   L.   D ho r e   a nd   P.   Y e s a w a r e ,   A r t i c l e :   S pe e c h   E m o t i o n   R e c o g ni t i o n   U s i ng   S uppo r t   V e c t o r   M a c hi n e ,   I n t e r na t i o na l   J our na l   o f   C om pu t e r   A ppl i c at i on s v o l .   1,   pp.   6 - 9,   2 010 .     [ 24]   M.   S.   S i n i t h,   e t .   a l ,   E m o t i o n   r e c og ni t i o n   f r o m   a udi o   s i g na l s   us i n g   S uppo r t   V e c t o r   M a c hi ne ,   in   I E E E   R e c e nt   A dv an c e s   in   I n t e l l i ge nt   C om p ut a t i ona l   Sy s t e m s   ( R A I C S)   T r i v and r u m ,   2 015 .     [ 25]   F e r gy ant o   E.   G unaw an,   e t .   al ,   P r e d i c t i ng   t he   L e v e l   of   E m o t i o n   by   M e a ns   of   I ndo ne s i a n   S p e e c h   S i g na l ,   T E L K O M N I K A   ( T e l e c om m uni c a t i o n,   C om pu t i ng ,   E l e c t r o ni c s   a nd   C ont r o l ) ,   V o l . 15,   no . 2 ,   pp .   665 ~ 67 0   I S S N :   1693 - 693 0,   20 17.     Evaluation Warning : The document was created with Spire.PDF for Python.