Internati o nal  Journal of Ele c trical   and Computer  Engineering  (IJE CE)  Vol .   4 ,  No . 5, Oct o ber   2 0 1 4 ,  pp . 64 3~ 64 7   I S SN : 208 8-8 7 0 8           6 43     Jo urn a l  h o me pa ge : h ttp ://iaesjo u r na l.com/ o n lin e/ind e x.ph p / IJECE  Voice-Based Door Access Co ntrol System Using the Mel  Frequency Cepstrum Coefficients  and Gaussian Mixture Model      Ka yo de Fr anc i s Aki n gb ade,   Oko k o  M k p o uto  U m a n n a Isi ak a Ajew al Al i m i   Department o f  Electrical and  Elec tronics Engin e ering, Schoo l of   Engi neering  and  Engin eering  Technolog y ,   Federal University  of  Te chnolog y ,  Akure, Nig e ria      Article Info    A B STRAC T Article histo r y:  Received  J u n 12, 2014  Rev i sed  Au 20 , 20 14  Accepted Aug 26, 2014      Access to an ar ea or env i ronment ca n be con t rolled b y   conventional  and   electronic key s identity  cards, p e rsona l id entif ication numbers ( P INs) pads  and sm artcards.  Due to certain  lim itat i ons of existing door acce ss  schem e deplo y ed for sec u rit y   in building s , this  paper presents speaker recognition fo r   building s ecuri t y  as  a bett er m eans  of adm i s s i on into im portant  places . Th is   is proposed due mainly  to  th fact th at speech  canno t be stolen,  copied forgotten ,  lost  or guessed with accuracy . This paper, th erefo r e presen ts   design of an af fordable voice  activat ed door control s y s t em for buildin g   security . The pr oposed s y stem uses  the Mel Frequency  Cepstr um and the  Gaussian Mixtur e Model for  feature ex traction  an d template patter n matching  res p ect ivel y.  Th e anal ys is  of the res u lt which is  bas e d on the fals e  accep tanc e   and re je ction  ra t e s  indi cat a s y s t em  ac curac y   of  m o re than  80%.   Keyword:  Access c o ntrol  PINs   Security  Sm artcard   Voice   Copyright ©  201 4 Institut e  o f   Ad vanced  Engin eer ing and S c i e nce.  All rights re se rve d Co rresp ond i ng  Autho r Kayode Fra n cis Akingbade ,     Depa rt m e nt  of  El ect ri cal  and   El ect roni cs  E n gi nee r i n g,    Sch ool   o f  E ngi neeri n g  an d E n gi nee r i n g Tec h nol ogy ,   Fede ral  U n i v e r si t y  of Tec h nol ogy ,  A k ure ,   Ni geri a   Em a il: k f ak ingb ad e@fu ta.edu.ng       1.   INTRODUCTION  The im ple m entation of acce ss control pre v ents una u thorized indivi dua ls to access s ecure area s ,   b u ild i n gs,  d o c u m en ts an d  serv ices. Th e con t ro l system  co n s ists o f  two  m a in  stag es  n a m e ly, th e id en tificatio an d v e rification  stag es. Peop l e  th at wan t  to   access a secu re  facilities in tro d u ce th em selv es to  th system   i n  th id en tificatio n stag e and  th e v e rificatio n  stag e ch eck  th v a lid ity o f  t h e id entities o f  th e in t r odu ced   u s ers.  If t h identity of the   user is  va lid, then the  user may access sec u re a r ea  with  t h assigne d  permissions. The  access  cont rol  sy st em  i s  used f o nu m e rous a ppl i c a t i ons suc h  as f o r l o g g i n g o n  ATM  m achi n es, e-ba n k i n g ac cou n t s   or for physical security of a  ro om  or  bui l d i n g  as a  w hol [1] .   Access c o ntrol for  buildings  is an esse ntial de vi ce for protecting im portant places i n   the buildi ng  th at h a v e   v a luab le o r   h i gh ly sen s itiv e m a ter i als. Serv er and  strong  ro o m   o f   b a nk s are i m p o r tan t  areas wh ere  ex tr em ely  ef f ectiv e co n t ro l syste m  is r e q u i red .  Th er e w a ys o f  secur ity i m p l em en tatio n  i n  a b u ild i n g  and  door  access control is an integral part of  t h em . The door acces s  cont rol is a m eans  of sec u ri ng building  by giving  limited access to specific pe ople and  by  kee p ing rec o rds of such accesse s [2].  Sm artcard  according to [2, 3] is   t h m o st  co m m on aut h ent i cat i on m e t hod  f o r t h e d o o r acc ess cont r o l s . It  has been  obse r ve d t h at  a card- bas e d   access system   can  only c o ntrol the  access  of a u thorize d  ca rd s  that a r pie ces of  plastic,  but  not the  owners hip  o f  th e card .  It  can   b e   u s ed  illeg iti m a tel y  b y  an un au tho r ized   p e rson   wh en  i n   p o s session   o f  it. Fu rt h e rm o r e,  sy st em s usi ng  PIN s  re qui re i ndi vi d u al  t o  ent e r spe c i f i c  nu m b ers to  g a i n  en try bu t the sh ortco m in g is th a t   t hose  w h o real l y  ent e rs t h e c o des ca n not   be  det e rm i n ed sy s t em .     Th e limitatio n s  o f  con v e n tional secu rity syste m s call  for  be t t e r one s. T h er e are va ri et i e s of  bi om et ri m e thods that c oul d be em ployed in access c ont rol system   f o verification  of a u thorize d  person int o  im p o rta n or se nsitive places. An a u tom a t i c verification of ident ity  in ter m of  beha vioral  and/or physiological   Evaluation Warning : The document was created with Spire.PDF for Python.
                        I S SN 2 088 -87 08  I J ECE Vo l. 4 ,  N o . 5 ,  O c tob e 20 14   :   643  –  6 47  64 4 charact e r i s t i c s of a pe rs on i s  carri ed  out  i n  t h e bi om et ri m e t hods [ 2 3] . The  bi om et ri c devi ce i d e n t i f i e s   people by cert a in unique feat ures su c h  as the finge rprint,  voice, face a nd  eye (iris). Additi onally, the device   can elim inate the  need for  ca rd-ba s ed acces s syste m .  In t h e light of  t h is, bi om etric devices ca n re duce the  need for reiss u e of lost  or  da maged  ca rds  as  the  fingerpri n t,  voice,  face a n d eye a r e ra rel y  stolen  or lost The a dva ntage s  of voice as a  biom etrics  m e thod a r e exp a tiated  in  [2 ] am o n g  wh ich are si m p l i city fo the  use r , spee of aut h entication and  level of  false -re j ection  rate. To resolv e prob lem s  o f  th PINs  p a ds and  sm artcards-bas ed  door access  control ,  this  paper  pres e n ts  voice -base d   door ac cess c ont rol system  using the   M e l  Freq ue ncy  C e pst r um  and  Gaus si an m i xt ure  m odel  fo bui l d i n g  sec u ri t y .   The pa pe r i s  o r ga ni zed as  fol l ows.  Sect i on  2 desc ri bes t h e  pr op ose d  sy st em . Sect i on 3  foc u ses  on   sy st em  desi gn  and i m pl em ent a t i on. R e s u l t s  and  per f o r m a nce eval uat i on a r e di sc u ssed i n  s ect i o n 4 .   C oncl u si o n s a r e d r aw n i n  sect i on  5.     In  t h fo llowi n g  section s we will qu ick l y go  throug h featu r e ex tracti o n and   Gau ssi an  Mix t ure  M odel .   Ne xt we l o o k  at  t h e   ope rat i o n a n d  i m pl em ent a t i on of  t h v o i ce b a sed  do o r  c ont rol  sy st em  and  fi nal l y ,   we prese n t perform a nce  eval uation  and res u lts.      2.   PROP OSE D  SYSTE M   Research in s p eaker rec o gniti on a nd s p eec h recogn itio n  is p r esen tly  m a tu re. Speak er reco gn itio n  is  essentially used in access c o ntrol syste m s t o  gi ve acce ss t o  individuals  whose ide n tities are validate d  from  t h ei r p r e v i o usl y  st ore d  v o i c e  reco r d or m odel s . T h i s  i n vol ves  bot h s p eake r  i d ent i f i cat i on a n d  sp eaker   verification [4]. It is, howe ver, di ffere n t from speech rec o gnition which  re lies on the share d  cha r acte r istic of  wh at  is said and   wh at  is stored  i n   o r d e r to mak e  a  decisi on. Both are  em ployed  in  sp eak e r id en tificatio n and   veri fi cat i o n sy st em s [5] . Thi s  pape r us es a t e xt  i nde pen d e n t  spea ker i d e n t i f i cat i on a n d  veri fi cat i o n p r oces s   wh ere t h p h rase or  word to be said  is  no t kno wn  t o  th e syste m The  desi g n  i s  im pl em ent e d i n  t w part s  nam e l y  t h e soft ware a n d t h har d wa re  p a rt s. F o r  t h e   soft ware , we  use the Mel Fre que ncy Cepst r al Coeffici ents  (MFCCs) for  feature e x tracti on a n d the  Ga ussian  M i xt ure M o de l  (GM M )  f o r  t e m p l a t e   m a t c hi ng.   W e   use  MFCCs beca use they a r ve ry robust a n are the  dom inant features use d   for speech rec o gnition  [6].   Al s o G M M s  are usual l y  prefer red  be cause t h ey  of fe r hi g h   classification accuracy whil still  bei ng robust to c o rruptions  in the  speec h signal. Also, t h ey are very  success f ul  when it c o m e s to  noise  ha ndling. T h is  ha s  led to the  exte nsive  use   of  GMM ba sed s p eake r   reco g n i t i on sy s t em s. The  har d ware  pa rt  use s   suc h  com p o n en ts as  d . c. m o to rs, th e L293 B  H-B r idg e  in teg r ated   circu it, a  p a rallel p o rt an d th d oor stru cture.    2. 1. Fea t ure  E x tr acti on   The intenti on  here is to  have a  m odel of  the sp eec h wa veform  that is  sufficiently an accurate   represe n tation  to the s p eech. It has  bee n  observe d  that  t h e s p eech si gnal is a slowly time varying signal  (qu a si-station a ry). Th is m ean s th at wh en ob serv ed  ov er  a su fficien tly sh ort p e riod   o f   ti m e  (b etween 5  and  10 0 m s ), i t s  charact eri s t i c s are fai r l y  st at i onary  but  cha n ge  ove r l o n g  pe ri ods  (0 .2s  or m o re ) i n  o r de r t o  refl ect   t h e di ffe rent  s o u n d bei n g s p oke n.  T h ere f o r e, t o  c h a r act eri ze t h e s p eec si gnal ,  t h e M e l  Fre que ncy  C e pst r al   Co efficien ts (MFCCs) wh ich  is a to o l  fo r sh ort ti m e  sp ectral an alysis is e m p l o y ed We refer to   [6]   for a   com p l e t e  descri pt i o n o f  t h pr oce d u r es f o r  obt ai ni ng t h e  M F C C s  feat ures. I n  t h i s  w o rk , t h e p r o g r a m m i ng  pl at fo rm  used  f o r  v o i ce  pr oces si ng  an d s o ft w a re  devel opm ent  i s  M A TLA B .     2. 2. Ga ussi a n  Mi x t ure M o d e l   In [ 7 -1 0] , a G a ussi an M i xt ur e M odel  i s  de scri be d as a w e i ght ed s u m  of M  com pone nt  Gau ssi an  d e nsities g i v e n b y  th e equ a tion ,     |   | ,      W h er  i s  a  D- di m e nsi onal  co nt i n uo us -v al ued  dat a  v e ct or  (m easure m ent  o r   feat u r es) , , 1, , ,  are  t h e m i xture  weights, a nd  | , , 1 ,…, ,  are the com ponent Ga us sian de nsities with  mean vectors   a n d  cov a r i an ce   ma tr ic e s .Each com p onent  density is D-variate Gaus sian function  of t h e   fo rm ,     | ,    1 2  ∑   2  | |    Evaluation Warning : The document was created with Spire.PDF for Python.
I J ECE   I S SN 208 8-8 7 0 8       Voice-Base Door Access Control  Sy stem Using the Mel  Frequency  Ceps trum C o efficients … (Kay ode  FA)  64 5 The m i xture  weights satisfy the constrai nt that     1 . Th p a ram e ters o f  th e co m p lete  Gau s sian  m o d e l are co llectiv ely rep r esen ted   b y  th no tatio n,       , ,           1 , , .     In  train i ng  th e GMM, th ese p a ram e ters are esti m a ted  su ch  th at th ey b e st  m a tch  th e d i strib u tion  of  t h e t r ai ni ng  ve ct ors  [F uzzy  m i xt ure  M o del  f o r  Sp eake r  R e c o g n i t i on] .       3.   SYSTE M   DESIGN AND I M PLEME N T A TIO N   The  pr ocess  b e gi ns  wi t h  t h e  reco rdi ng a n d  t r ai ni ng  of  v o ice sa m p les o t h e rwise called en ro lm en t,  whic h could  be done either i n  real tim e  or using a pr e-rec o rde d  sam p le.  A data base for each of these  sam p les   exists s u ch tha t  any  newly  re corde d  s p eec h woul be sa ved  there and   no t b e  lo st  either  b e fo re or after th reco g n i t i on p r ocess. F o opt im al resul t s  as in  th is case,  it is  v e ry i m p o r ta nt that the recorde d  spee ch be   obtaine d through the sam e   means and if possi ble, pr ocesses every tim e . This  is  because the intrinsic  p r op erties of differen t  micro p h o n e v a ry and co u l d   g r ea tly affect th e qu ality o f  th e sig n a l  an d  th recogn ition  syste m  in gene ral.  It is in  t h is process th at th e an alog u e  sp eech  sign al  i s  c o n v ert e d t o  a di gi t a l  si gnal   by  sa m p li ng.  Th an alog u e  sign al is cond itio n e d   with  an ti-aliasin g  filtering   (and  add itio n a l  filtering  if requ ired  to co m p en sate  for an y ch an nel i m p a ir m e n t s). Th e an ti-aliasin g  filter li m its  th e b a nd wi d t h o f  th e sign al to  app r ox im a t el y th e   Nyqu ist rate (half th e sam p lin g  rate)  b e fore sa m p lin g .  Th is  d i g itized  sp eech  is th en   fu rth e r an alyzed  t o  ex tract  th e features that wou l d  b e   u s ed  fo r th recog n ition  algo rit h m .  Fig u r 1  sh ows th e series o f   p r o cesses  th at th e   voice  sam p les would undergo for a typical c a se whe r e a  ve rified I.D is enro lled and its  m o d e l is sub s eq u e n tly  com p ared  with the  features  of a claim e d I.D.   Th e h a rdw a re o f  th is pro j ect  is d e sig n e d  and  bu ilt u s in g  a si m p le d o o r pro t o t yp e m a d e  w ith  w ood  (pl y w o od hav i ng t w o   DC  m o t o rs.  The  DC  m o t o rs are  l i g ht wei g ht  a n d c ons um e l e ss p o we r,  w h i c h  i m pli e s   that the batteries would last  m u ch longe r.  These m o to rs provide  the ne eded rota tional  displacem ent  for the  door to open a nd they are controlled by  an  H-Bri d ge IC ( L 2 93B ). T h is IC  is in  tu rn   driv en  d i rectly b y  th parallel port of the system  connecte d   via a  para llel p o rt cable an d con t ro lled  thro ugh  M A TLAB.                Fi gu re 1.   O p er at i ons o n  a typi cal analogue si gnal           Verified I D Feature  Extr acti on   Enrollment Pattern  Ma tchin g   Claimed ID  Speaker  Mo dels   Feature  Extr acti on   Filtering  and A/D   Fea t ure   Ex tra c tio n   Pattern   Matching  Decision  Clai m e d    I D   Verified  ID   Enroll m e n t   Speak e r   Models  Accept   Rejec t   Evaluation Warning : The document was created with Spire.PDF for Python.
                        I S SN 2 088 -87 08  I J ECE Vo l. 4 ,  N o . 5 ,  O c tob e 20 14   :   643  –  6 47  64 6 4.   R E SU LTS AN D PER F ORM ANC E EVALU A T ION  A to tal  o f  seven   (7)  vo ice sa m p les fro m  ten   (10 )   diffe re nt s p eake r s t h at are  recorde d  through the  sam e  process  a n d at a sam p ling rate  of  88.2KHz i s  used  f o r t h e  pe rf orm a nce e v al uat i o n.  Si nce t h i s  sy st em  i s   not  a t e xt - d epe nde nt  sy st em , the  voi ce sam p l e s are  vari e d  f r o m  nam e s t o  n u m b ers de pe nd i ng  o n  t h e c h oi ce o f   the speake r Furt herm ore, i n  assessing t h syste m  pe rformance with re spect to  accuracy and reliabi lity, we  use the  false a ccept rate a n the false  reject  rate. T h ere f ore, out of te n (10)  ve rification  trials each for  every   i ndi vi dual  set ,                          ≡                            13.27%     This inva riantly  m eans that the ge nui ne  acce ptance  proba b ility of the syste m   is;     100 1 3.27 . %     The figures obtained for the  FAR an d Ge n u ine Acce pt Rate (GAR)  of  t h i s  s y s t em  cl ea rl y  i ndi c a t e s   th at th e system b a sed   on  th is  t e st, has  an efficiency of m o re  th an 80 % so far.  Similarly,                           ≡                          18.5%     The lower t h False reject  rate, the hi ghe r the effi ciency of  any biom etric  syste m . Ad d itio n a lly, th is  test also prove s  the efficacy of the gi ven sy ste m . Th e perform a nce of the  Autom a ted Speaker Recognition is  summ arized in Table  1.      Tabl 1.  Ge ner a l  Perf o r m a nce A u t o m a t e d Sp eaker  R eco gni t i on     FAR (% FRR (%)  Speaker  1  20   10   Speaker  2  20   Speaker  3  30   Speaker 4 10   20   Speaker  5  50   40   Speaker  6  20   30   Speaker  7  10   10       5.   CO NCL USI O N   Thi s  pa per  has  descri be d t h e  desi g n  of a  v o i ce act i v at ed do o r  co nt rol  s y st em . W e  ha ve use d  t h e   MFCCs fo r featu r e ex traction  wh ile th e GMM is u s ed  fo p a ttern  m a t c h i ng W e   h a ve also  sh own  th at th do o r  co nt r o l  s y st em  coul d e a si l y  be assem b l e usi n g c h e a p a nd ea si l y  avai l a bl e m a t e ri al s. A n al y s i s  of t h results  using s t anda rd  pe rformance m e trics suc h  as  FAR  and  FRR produced ac cu racy (ge n uine acce ptance   probability) of  m o re than  80% ,  which is  high  whe n  c o m p are d   with e x isting access c ont rol  schem e s.      REFERE NC ES   [1]   E Dovgan, B Kaluža, T Tušar an d M Gams. Agent-ba sed Security  S y stem fo r User Verification.  I n ternational Joint  Conference on   Web Intelligen ce  and Intelligen Agent Technolog y . 2009 : 331-334 [2]   W A   W a h y udi a nd M Sy a z il awa ti. Int e ll igent Vo ice-B a sed Door Access Control S y stem  Using Adaptiv e-Network - based Fuzzy   Inf e rence S y s t ems ( ANFIS) for Building Secur i ty Jo urnal of Computer Science . 2007 ; 3(5): 274-280.  [3]   SY Kung, MW Mak and SH  Lin .   B i ometr i c Au th enti cation:   Machine Learning  Approach . Prentice Hall. 2004.  [4]   S Furui. Recen advances  in  speaker recognition.  Patter  Recognition Letters . 1997; 18: 859-872 Evaluation Warning : The document was created with Spire.PDF for Python.
I J ECE   I S SN 208 8-8 7 0 8       Voice-Base Door Access Control  Sy stem Using the Mel  Frequency  Ceps trum C o efficients … (Kay ode  FA)  64 7 [5]   JP Campbell. “ Speaker  Recognition: a Tutorial ”.  Proceedings of  t h e IE EE . 1997;   85(9): 1437-146 2.  [6]   Sirko Molau,  Micha e l Pi tz,  Ra lf   Schl ¨ u ter, and Hermann  Ney Computing Mel  Frequency  C e pstral Co efficien ts  on  the P o wer S p ect rum .   ICASSP . 2 001.  [7]   D Tran and M Wagner. “ Fuzzy Normalization Methods  for Speaker Verification ”. In Proc. IC SLP2000, Beijin g,  China. 2000; 1:  446-449.  [8]   D Tran and M  Wagner. “ A Proposed Likelihoo d Transfo rma tion for Speaker Verifica tion .  In Proc .  ICASSP20 00,  Turkey . 2000; 2: 1069-1072.  [9]   J C  Bezdek . " Pa ttern Recognition  with  Fuzzy   Objective Function Algorithms ". Plen um Press, New York. 1987.  [10]   JM Me nde l.   Uncertain Ru le-bas ed Fuzzy Logic Sy stems: Introduction and New  Directions . Pre n tic e-Hall , Upper  Saddle R i ver ,  NJ. 2001 Evaluation Warning : The document was created with Spire.PDF for Python.