Indonesi an  Journa of El ect ri cal Engineer ing  an d  Comp ut er  Scie nce   Vo l.   24 ,  No.   1 Octo be r   2021 ,  pp.  17 8 ~ 18 8   IS S N: 25 02 - 4752, DO I: 10 .11 591/ijeecs .v 24 .i 1 . pp 17 8 - 18 8          178       Journ al h om e page http: // ij eecs.i aesc or e.c om   Static ha nd  ge stu re re cogn ition of  Arabic s ign lan gu age   by  usin g deep CNN s       Moham ma H.  Ism ail She fa A .  Daww d Fak h ra deen  H. Ali   Depa rtment  o f   C om pute Engi n e eri ng,   Coll ege of   Engi n ee ring ,   U nive rsit y   of  Mos ul,   Mos ul,  Ira q       Art ic le  In f o     ABSTR A CT   Art ic le  histo ry:   Re cei ved   J un  17 2021   Re vised  J ul   31 2021   Accepte Aug   4 2021       An  Arabi sig la ngu age   r e cogni ti on   using   two  con ca t en at ed   dee p   convol uti on   neu ral   ne twork  m odel DenseNet 1 21  VG G16  is  pre sente d .   The   pr e - tr ai ned   m odel are  fe with  images,  and  the t he   s y stem  c an   aut om at i ca l l y   r ec ogni ze   th Arabi sign  language .   To  e val ua te   th e   per form anc of   conc atena t ed  t wo  m odel in  the   Arabi sig la nguage  rec ogni ti on,   the   red - gre en - blue   ( RGB )   images  for  var ious  sta ti c   signs  ar e   col l ec t ed  in  dat ase t.   Th d at ase t   comprise 220, 000  images  for  44  ca t egor ie s:   32  l et t ers,   11  num b ers  (0:10),  and  for  none .   For   each  of  the  stat ic  signs,  th er are  5000  imag es  col l ec t ed  fro m   diffe ren vo lu nte ers.  The  pre - traine m od el s   were   used  a nd  tra in ed  on  pr epa red   Ar abi c   si gn  la ngua g dat a .   The se  m odel were   used  aft er  som m odifi ca t ion.   Also,  an  at t empt  has   bee m ade   to  a dopt  two  m odel from   the   pre viousl y   tr ai ned  m odel s,  wher e   they   a re  tra in ed  in  par al l el   d ee fea tur ex tracti o ns .   The they   ar combine d   and  pre par ed  f or  the   cl assif i c at ion  stage.  Th result demons tra te   th compari son  betw ee the   per for m anc of  the   single   m odel   and  mul ti - m odel.  It   appe ars  th at   m ost  of  the   m ult i - m odel   is  bet t e in  fea tur ex t rac t ion  and   cl assifi ca t ion  th a the   singl m odel s.  And  a lso  show   tha when  d e pendi ng  on   the   to ta num ber   of  inc orr ec r ecogniz sign  image  in  tr ai ning ,   v al id at ion  an d   te sting  d ataset ,   the   b est  c onvo l uti onal  neur al   net works   ( CNN )   m odel   in   fea tur ex tracti o and  c la ss ifi c ati on  Arabi sign   l angua ge   is t he   DenseNet 121   for  a   single m ode using   and   Den seNet 121  &   VG G16 for  m ult i - m odel   using .   Ke yw or d s :   Ar a bic sig la ngua ge    Conv olu ti onal   neural  netw ork     Deep l ear ning   Mult i - m od el     Stat ic  h an d ges ture   This   is an  open   acc ess arti cl e   un der  the  CC  B Y - SA   l ic ense .     Corres pond in Aut h or :   Moh am m ad  H. Ism ai l   Dep a rtm ent o f   Com pu te E ng i neer i ng   Coll ege  of   En gi neer in g U nive rsity  o f  Mos ul Mos ul Ir a q   Em a il m oh a m m ad. ha qq i @gm ai l.co m       1.   INTROD U CTION   Sign  la ngua ge   is  th ought  to  be  the   on ly   m eans  for  norm al   people,   hea rin g - im paired ,   an deaf  t com m un ic at e.  People   us no n - verbal  s peec in  the  f or m   of   si gn   la ngua ge  sig nals  to  e xpress  t heir  th oughts  and  feeli ngs I si gn  la ngua ge the re  a re  tw ty pes   of g est ur es:  stat ic   an dynam ic [1 ] .  A ra bic  Si gn  La ngua ge   Ar S has  m any  nation  va riet ie and   diale ct s.   It  var ie from   on nation  to  a no t her,  eve oft en  inside  the  s a m e   country.  Des pite  this,  the  al phabet  a nd  num ber i the  Ar a bic  la ngua ge  a re  sta ndar dized   in  sig la ngua ge  [ 2] .   Sign  la ngua ge n ee a inte ll igent  de vice  that  can  c onve rt  them   fr om   on e   sig la ng ua ge  to   an oth e r   us in natu ral  la ngua ge.   With out  an   inter pr et er it dif ficult   for  m os peo ple   w ho  are n' intere ste in   sig la ngua ge   to co m m un ic at e. T hese  pro blem s n ecessi ta te   the use  of  a u to m at ic  sign  lan guage  tra ns la ti on  pro gr am s.   Non - m anu al   a nd   m anu al   sig ns   are  t he  tw m ajo c om ponen ts  t hat  m ak up   si gn   la ng uag e s.  Bo dy  m ot ion   a nd  fa ci al   expressio ns   a re  represe nted  by  t he  non - m anu al Ha nd  locat io n,  ori entat ion,  s ha pe,   a nd   trajecto ry  are  t h m anu al   sig nals.  Mo st  w orks ho wev e r,   con ce ntrate  on  m anu al   sig ns   because   they   pro vid e   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Sta ti c ha nd ges ture rec ogniti on  of Ar ab ic   sig la ngua ge by  us in g dee CN Ns   ( Moha mma d H. Is ma il )   179   the  m os i m p or ta nt  inform a ti on no n - m anu al   sign s on  the  oth e ha nd,  assist   sign e rs  in  ex plaining   a nd   e m ph asi zi ng th e v al ue  of m anu al  sig ns   [ 3 ] [ 4]. In  t his  wor k,  t he  m anu al  s ign  is  in vestiga te d.   Sign  la ngua ge  detect ion   is   ac hieve in   tw appr oach es:   t he   first  a ppr oac dep e nds  on  visio n - base d,   wh il the  seco nd   a ppr oach   is   based   on  se nsor - ba sed  [ 5 ] [ 6].  The  visi on - base ap proac captu res  the  hand  gestu re  with  t he   ca m era   in  th form   of   sta tic  or   se quentia l   i m ages  without  the  use   of  gl ov es  or   sens or s.  This   appr oach   is  m os ap pro pr ia te   for  the  real  da il li fe  of   the  deaf   a nd  m ute,  al though  the r are  m any  obsta cl es   su c as  li ghti ng  c onditi ons,  s kin   c olou r,   bac kgr ound  di ff e r e nces,  i a dd it i on  to  t he  properti es  an set ti ng s   of   the  cam era  [5] The  se ns or - base ap proac in vo l ves  w e arin gl ov es wh ic co ntain   sens or i nten ded   t express  sig l angua ge.   Thes gloves  ha ve   the  c har act eri sti of   bein un a ff ect e by  the  obsta cl es  t hat  t he   visio n - base a ppr oach faces . Ho we ver, it  is  no t a ppr opriat e  to wear  it  m os t of the ti m e   [5] .   The  m ai goal   of  the   pr ese nt ed  re searc is   to  pr e pa re  da ta   relat ed  t t he  Ar a bic  si gn  la ngua ge,   a m ou ntin to  220  th ousan colo ur   im ages.  Then,  us i ng   pre - trai ned   m odel fed   with  i m ages,  set   up   syst e m   that  can  a uto m at ic al ly   reco gniz the  A rab ic   sign   la ngua ge,   wh ic incl ud e s   44  cat eg or ie s:   32  le tt ers,   nu m ber from   to  10,  a nd  one  f or   none Als o,  an   at te m pt  to  evaluat the  perf or m a nce  of  co ncate nating  tw m od el i the Ara bic sig n l angua ge reco gn it io is  pr e se nted.       2.   RELATE D  W ORKS   Deep   le a rn i ng  is  widely   us e in  m any  areas.  Co nvolu ti onal   ne ur al   networks  are  f or m   of   de e neural  net wor that  is  wide ly   us ed  f or  i m age  analy sis.  The re  are  var i ou a rc hitec tures  a vaila b le   f or   conv olu ti onal   neural  netw or ks   (C NN s ).   C NN a re  gi ving  the  best  a nd  m os accurate  resu lt w hen   so lvi ng   real - w orl pro blem s.  On of  it app li cat io ns   is  im age  cl assifi cat ion ,   w hich  is  t he  process  of  capt uri ng  a i m age  as  an  inp ut  an produ ci ng   the  im ag e’s  cl ass.  crit ic al ly   i m po rtant  good  predic ti on   can  be  ob ta ined   thr ough CN Ns ro le  i re duci ng im ages to  a  f or m  that is eas y t pr ocess wi thout l os i ng f e at ur es .   Ma ny  researc he rs  ha ve  us e diff e re nt  m et ho ds   to  ide ntify   sign   la ngua ge   in  gen eral  or  Ar a bic,  a nd  so m of   them   will   be  prese nt ed.   I [ 7],  m et ho for  re cognizi ng  A rSL  num ber an le tt ers  is  sug gested .   W it real  dat aset   of   5839  i m ages  of   28  c har act er an 2030  im ages  of   nu m ber (fro m   to  10),   t his  s yste m   is base d on CN N.   The  prop ose syst em  h as  a   rec ogniti on ra te  o f  90.0 2%.   Using  fine - t uned  VGG 19   m od el Cre pso   et   al [8 ]   pr opose an  red - gree n - blu ( R GB )   and   RGB - sta ti gestur r ecognit ion  syst e m The  fi ne - t un e VGG 19  m od el   us es  f eat ur c on c at enate  la ye of  R GB  an RGB - im ages  to  increa se  the   ne ural   net work ' accu rac y.  The  pr opose m od el   te ste an  Am erican  sig la nguag e   ( AS L Re co gnit ion  dataset  achie ve 94. 8% reco gn it io n rate .   Dad a sh za de et   al.   [9 ]   su gge ste two - sta ge  fusio netw ork  base on  CNN  arc hitec ture  f or   ha nd   gestu re  recog ni ti on .   In  the  fir st  sta ge  of  the   netw ork they   pro posed   ha nd  se gm entat ion   a rch it ect ure.   Wh en   there  is  si m i la rity   between  sk in  col our  a nd   backg rou nd  colour,   the  ha nd   se gm entat i on   m od el   perf or m ed  well   in  dif ficu lt   conditi on s accor ding  t t heir  data.   The desig n e a   two - stream   CN for  t he  net work ' s   seco nd   le vel  unti cl assifi cat i on,  it   can  le arn  to  m erg featur re presentat ion f r om   bo th  the  RGB  i m a ge  an it s seg m entat ion  m ap.  T heir  s yst e m  r un s  at a  f ram e rate of  23 m s p er  fr am e.    deep  le ar nin g - based  m et h od  f or   A rS L   recog niti on   w as  sug gested   in  [10].  Deep  featur e ar e   sel ect ed  by  pro cessi ng in pu t i m ages w it h va r iou s lay er s.  Fi na ll y, the SoftM ax  f unct io is  us e to  di vid e t arg et   cl asses  into  ca te gories  an c om pu te   nor m al iz ed  pr oba bili ty   scor f or  each W it a   s cor e   of  99.52%,  t he   su ggest e syst e m   based   on  residu al   net work   Re s Net1 01   ob ta ine the  gr e at est   accuracy.  Elsa y ed  an   Fathy  [11]  trai ned   a nd  te ste Deep   C NN   a rc hitec ture  on   a Ar a bic  sig la ngua ge  dataset Their  e xperi m ental  resu lt s how   t hat  the   trai ni ng  set ' cl assifi cat ion   acc ur a c was  98. 6%,  wh il t he  te sti ng  set s   was  94. 31%,  accor ding t th e colle ct ed dat aset .   Althaga fi  et   al [12]  us e a   CNN  m od el   by  ta king  gra ysc al i m ages   as  input  to  syst e m   that  autom at ic ally  recog nizes  28   le tt ers  for  Ar a bic  Sig Lan gu a ge  rec ogniti on,  they   achieve 92. 9%  of  recog niti on   ac cur acy   on  10810  te ste im ages.  Lat if  et   al [13]  sug gested   syst em   that  recog nizes  the  Ar a bi c   al ph a bet' signs  in  real - ti m e.  data base  of m or than  50 000  im ages  was   us ed  t trai a nd   te st  the D ee CN arch it ect ures.  Seve ral  tria ls  are  car ried  ou to  determ ine  the  hi gh e st  r ecognit ion  rat es  by  ch an ging  CN N   arch it ect ural   de sign  pa ram et e rs.   Th ree  c onvoluti onal   la ye r s,  th ree  poolin la ye rs a nd  a   f ully   co nn ect e la ye r   m ake up  the   propose d ee C NN arc h it ect ure. T he  acc ur ac y of t he  e xperi m ental  r esults i s 97.6%.   The  acc ur acy   of   recog nizing  32   ha nd   gest ur es  from   the  Ar a bic  sig la ngua ge  is  im p rove us i ng   trans fer  le arn i ng  an fin e - t un i ng  de ep   c onvoluti onal   ne ur al   netw ork ( VGG 16,  R esNet1 52)   [ 14] The   i m pl e m entat io of  the  prese nt ed  m od el   was  accom plished   by  reducin th siz of   the  tr ai nin dataset   wh il e   increasin acc ur acy .   Th networks  wer e   fe by  im ages  of  va rio us   Ar a bi Sig La ngua ge  data  a nd  we re  a ble   to  achie ve  a accuracy  of  a ppr oxim a te ly   99 %.   The   c on voluti onal   neur al   netw ork  (C NN)  a nd  dat aset   of   20,00 sig im ages  of   10  sta ti dig it we re  us e in  researc [ 15]   to  buil the  BSL  dig it recog niti on   s yst e m .   The  pro pose CNN  m od el   was  com par ed  to  nu m ber   of   oth er  sig la ngua ge  m od el s.   The  pro po s ed   CNN   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   24 , N o.   1 Oct ober  20 21 17 8   -   18 8   180   m od el' arch it e ct ur was   cl ose   to  t hat  of  t he   V GGNet,  but  it   on ly   had  six   conv olu ti onal   l ay ers  instea of  the  VGG Net' m in i m u m  o f 13. T he  trai ning acc ur acy   of the  pr opos e syst em  is 97. 62 % .   The  syst em   is   re - trai ni ng  VGG  syst em   [1 6]   for  real - ti m AS fin ge rsp el li ng  recogn it io with   CNNs  netw ork to  cl assify   total   of   26  al phabets as  well   as  two  cl asses   for  sp ace  a nd   delet e.  The  sy stem  had   trai ni ng  set   accuracy  of   98. 53%   a nd   validat ion   s et   accuracy  of  98 . 84%.  CN us e the  pr opos e syst e m   [1 7]  to  reco gniz Ara bic  hand  sig n - base le tt ers  a nd   tra ns la te   the m   into  Ar abic   sp eech.  T his  syst e m   has  90%  ac cur acy   rate  in   recogn iz in Ar a bic  sig le tt ers.   Tasm ere  et   al.   [18]  introdu ce sys tem   to   recog nize  ha nd  gest ur es  i r eal - tim e.  Han segm entat ion   in  the  YC bCr  colo ur   s pace  was  use for  gestu re  identific at ion, fo ll owe by  t he   sugg e ste C NN   m od el . Three  co nvol utio la ye rs,   t wo m ax - po oling  la ye rs,   a nd  two  f ully   connecte la ye rs  represe nt  the  pro po se CN m od el Fo 11   gestu res  from   dep th  i m a ges,   this   pro po se t ec hniqu pro vid e an  acc ur acy   of   94.61% dat aset   con ta ini ng  1320  sam ple  im ages  was  us e d.   In  the  current  st ud y,  the re  are   sever al   at tempts  to  de velo bo th  the  si ngle   m od el   and   the  m ulti - m od el to  increase  t he  pe rfor m ance  an accu racy  of  t he  Ar a bic  sig la ngua ge  recogn it io n.   I a ddit ion ,   this   stu dy   was   disti nguish e d b y t he  f ollo wing :     la r ge - siz e c olored dat aset   was pre par e d f or  t he Ara bic s ign  la ngua ge d ue  to  the i nab il it y t acce ss such   data,  by m any researc hers  who deal  w it h A r abic sig la ngua ge reco gni ti on .     Accor ding  to  the  previ ou re searche an usi ng   the  m ulti - m od el ’s   m et ho d,   the re  are  dif fer e nt  input  da ta   for  each  m od el   as  colo ur   a nd   dep t im ages.  Wh il in  this  s tud y,  the  sam input  colo ur   i m ages  wer use for  eac m od el .   The  CN m odel gen erate  di f fe ren le ngths   of   featu re  m a ps   with  dif fer e nt  ranges  of  va lues.  Wh en   us in m ulti ple  m od el s,  be for m erg ing   t he  two  m od el fe at ur es,   we   nor m al iz ed  the  va lues  of  t hese  f eat ur m aps  in t he  sa m e range.       3.   E X PERI MEN TAL MET H O DOLO GY   3.1.      Dataset     The  th ree - c ha nn el   RGB  im ag es  are  receive from   the  ca m era.  T he  RGB  i m ages  fo va r iou sta ti sign ar colle ct ed  in  this  da ta set The  data set   com pr ise 220,0 00   im ages  fo 44   cat e gories:   32  le tt ers  as   sh ow in  Fi gure  1   t ex pr e ss   al the  Ar a bic  sign   la ngua ge   (ArSL voca bu la ry,  11   num ber ( 0:10),   a nd  f or  none.  F or  each   of  the   sta ti sign s t her e   are   5000  im ages  colle ct ed  f r om   10  di ff e ren vo lun te ers T he   da ta set   div ide into  th ree  gro up trai ning,  validat io n,   an te sti ng , w he re  80%  ( 176,000  im ages)   of   the  data  we r us e f or  trai ni ng,  10 (22,0 00  im a ges)   of  the  dat wer us e f or  validat io n,  an 10%  ( 22,00 i m ages)   of  the   data  wer e   us e f or  te sti ng .   Th dataset   al so   i nclu ded  se ver al   cas es  of  div e rse  li gh ti ng  c on diti on a nd  backg rounds ;   it  includ e c ha ng i ng the  dista nce  betw ee a   us er  and t he  ca m era,  as s how in   Fig ure  2.             Figure  1.   A rab i c alph a bet si gns ar e ty pe  of st at ic  g est ures a nd are  p e rfor m ed usin a  sin gl e h an d   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Sta ti c ha nd ges ture rec ogniti on  of Ar ab ic   sig la ngua ge by  us in g dee CN Ns   ( Moha mma d H. Is ma il )   181       Figure  2. A  set o im ages o f  the let te Ba   fro m   the d at aset       3.2.     Data  p re processin g   Sign  im ages  wer pre process ed  by  resizi ng  and  norm al iz ing   the  im age.  T he  im age  is  then  re siz ed  t 100 x100.  This   siz is  cho sen  as  tradeof betwee acc ur acy   an exe cution  ti m e.  T hese  im ages  a re  then   norm al iz ed  to ch an ge  t he ran ge of  p i xel inte ns it y values , re su lt ing  in a  m e an value  of  a nd a  var ia nce  of  1.     3.3.     Data  a ugme ntati on   Usu al ly f or   t he se  ver po we rful  dee ne ural   networks,  de ep  le ar ning  is  associat ed  with  m i ll ion of   i m ages.  The  di sadv a ntage  of  the  lim it ed  trai nin im age  set   is  that  the  neural  netw or m a re m e m ber   our   trai ning  data  a nd   ca pre dict  the  perform ance  of   the  trai nin set   well bu the  ver ific at ion   acc ur a cy   is  poor.   Fo s olv i ng   t he   dataset   prob l e m data  aug m entat ion   was  a pp li ed  t pr e ve nt  over fitt ing  and   im pr ov m od el  gen e rali zat ion   abili ty   [1 9 ] T he  stu dy  us es  on li ne   data  a ugm entat ion T her a re  var i ous  data  au gm e ntati on   te chn iq ues  us e f or   sta ti sign   la ngua ge  to  preve nt  m od el   over fitt ing  and   e nh a nce   le arn in capa bili ty :   Norm al iz a ti on   i m age,  br ig htne ss  range  ( 0.4 - 1.2),  zo om   ran ge  (1. 0,   1.2 ),   h ei gh sh ift  ra ng (10%),  widt sh ift  range  ( 10%) r otati on   ra nge  ( ±10°).  T he  au gm entat ion   of   data  for  the  dy nam ic   s ign   wa done  by  a pp l yi ng  ro ta ti on  ±  ( - 10°),  translat io tran sf or m at i on   ±  ( 4 - 8%)   a nd  cha nge  the  bri ghtness  ±  ( 8 - 28%)  a nd   s harpen   t he   i m age,  added   no ise   sal an pa pe an blurrin im ages  with  filt ers   gaussia n,   m edian,   a ve rag i ng  an m or phologica op e rati on   e r osi on   a nd   dilat ion   of   t he  data set W al so   f li pp ed  t he  im a ges  ho rizo ntall t o   include  le ft   or   righ t - ha nd e d   sign   la ngua ge.  The  trai ning   set   is   increased  ab ou 48  tim es  throu gh   these  op e rati ons. I nsi de  the m ini - ba tc fe i nto  t he  m od el , all of t hese  operati on s ar e a ppli ed  at  r a ndom .     3.4.     Pre - tr ai m odel s   To  ta ke  a dv a nt age  of  Tra nsfe le arn i ng   by  usi ng   pr e - trai ne m od el s.  Im a geN et   is  rese a rch   pro j ect   that  aim to  create   m assive  im age  database.  M odel s   su c as  t he  Den s eNet 121  [20],  VGG 16  [21],   Nasnet Mob il [22],  Xcep ti on  [23], Mo bileN et V2   [24], E ff i ci entB0 [2 5], Inceptio nV3  [2 6] an Re s Net50 [ 27]   wer t raine on  va rio us   cl ass es  of  im ages.  T hese  m od el w ere  create f rom   scratch  and   t raine on  m il l i ons  of   i m ages  con ta i ning  th ou sa nd of   obj ect us in hi gh - qual it GP Us.   The  m od el   ha le arn e good  represe ntati on   of  lo w - le vel  f eat ur es   su c a sp at ia l,  e dge s,  r otati on,  il lum inati on a nd  s ha pes  si nce   it   was   trai ned   on   la r ge  dataset The se  featur es  m a be  exch a ng e to  facil it at t ran s fer   le ar ning  an extract  f eat ur e s   from   new   im a ges  ac ro s se ve ral  com pu te visio pr ob le m s.  T he  pr e viou sly   te ste m od el   sh ould   al so  be  a ble  to  extract  s peci fic  featu re s f r om   these  ne im ages  base on  the  c oncepts o tr ans fer   le a r ning,  e ve th ough  t he  new  im ages  ar from   entirel dif fer e nt  gro ups  t han  the   sou rce  dataset T hi is  to  be nef it   from   these  m o dels  in   extracti ng  feat ur es  a nd  cl assify ing   im ages,  wh ic are  dif f ere nt  f r om   wh at   they   wer tr ai ned   on.  T herefo re ,   this  require c hangin t he  la st  la ye rs  respo ns ible  f or  cl as sific at ion   f r om  these  m od el with  di ff e ren oth e r   la ye rs  to  m at c the   nu m ber   of  ob j ect to   be   cl assifi ed.  T hen  trai ni ng  on  the  ne im age  data  unti the   desir e pr eci sio in  r ecognit ion   is  ob ta ine d.   T his   m et ho is  con side red   the  be st  on in  obta ining   the  re quire accuracy i n rec ognizin g from   adoptin g un t rained m od el s .     3.5.     Pr opose d metho d   3.5.1. Si ng le   mod el   Pr e - t raine m o dels  with  trai ne weig hts  are   us ed  on   the  I m ageN et The se  m od el (D e ns eN et 12 1,   VGG 16,  RES Net5 0,   Mo bile NetV 2,   Xcep ti on,  Ef fici ent  B0,  N ASNet   Mob il e,  a nd   I ncep ti on V3)  w ere  us e d   with  so m m od ific at ion s Ea ch  of  these  m od el incl udes   two  pa rts,  the   first  for  e xtra ct ing   feat ur es  and   t he   Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   24 , N o.   1 Oct ober  20 21 17 8   -   18 8   182   sec ond  f or  cl assifi cat ion T he   second  pa rt  has  bee rem ov ed an we  ha ve  ke pt  the  f eat ur ext racti on   par t.   The n,   la ye of   gl ob al   ave r age  poolin w as  add e after   the  la st  la ye r   in  the  featur e   extracti on   pa r t.  The   global  ave rag e p ooli ng  la ye ( GAP)  is  ad de t reduce  the  s iz of   the  feat ure  m ap  by  conver ti ng  it   into a  on e - dim ension al   m at rix  w hile  kee ping  vital   in for m at ion w her e   the  siz of  f e at ur m ap  with   dim ension w×d   is  reduced  t dim ension siz to  1×d.  G AP   la ye rs  us the  ave rag of  al h×w   val ue to  re du ce  ea ch  hw   featur m ap  to  sing le   nu m ber Attem pt hav al so   be en  m ade  to  add   diff e re nt  la ye rs  fo op t i m u m   cl assifi cat ion The  best  acc uracy   was  w hen  add i ng  one  la y er  of   t he  dro pout  rate  of  20%   reducti on  in   ex ist ing  connecti ons  t pr e ve nt  over fitt i ng i wh ic the  co nnect ions  betwe en  t he  l ay ers  are  ra ndom l el i m inate d,   t he   dro pout  la ye i disa bled  i t est ing   a nd  validat ion  m od e.  The f ollo wed  by  fu ll c onnecte ou t pu t   la ye (F C)  of   siz 44,  it un it ’s   nu m ber   eq ua to  cl ass’s  num ber with  so ftm a activati on   f unct ion   for   cl assifi cat ion .   The  fo ll owin m od el wer de velo ped  acco r ding  to  w hat  w as  m entioned   a bove:  Den se N et 121,  VGG 16,  RES Net5 0,   M ob il e NetV 2,   Xcep ti on,  Ef fici ent  B 0,   NASNetM obil e,  an I nce pt ion V 3.   The e ach  of  them   was  trai ne on  a Ar a bi sig la ng ua ge   dataset   t rec ognize  Ar a bic  sign  la ngua ge.  And  Fig ur e   3   s hows  the g e ne ral la yout  of arc hitec ture  for ea ch  of  these m od el s .     3.5.2. Mul ti - m od el   An  at te m pt  has  bee m ade  t a dopt  t wo  m od el from   t he  pr e viously   trai ned  m od el refe r red  to   above ,   w her t hey  are  trai ned  in  pa rall el   de ep  feat ur e xtr act or s .   The t hey  are  c om bin ed  an pr e pared  f or   the  cl assifi cat i on   sta ge Fig ure  4   shows  th arch it ect ur of   m ult i - m od el   netw ork,   wh ic co ns ist of   two  br a nc hes.   Eac br a nch   is  C NN   m od el De ns eN et 12 m od el   an V G G16  m od el   are  use in  the  case  sh ow in  Fig ur 4 I this  m ulti - m od el our  data set ' pr e - pr oce ssed  in put  col our  im ages  siz is  100x10 pix el s,  wh ic represe nt   the  in pu im a ge  for  tw m ulti - m od el   bran c hes.   From   the  input  im age,  D ense Net  pro du c es  3x3x10 24   featur m ap  on   it la st  featur ex tract or   la ye r,   wh il V GG1 gen e rates  3x 3x512  featur m ap  on  it la st  featur extracto la ye r.  To  re du ce  t he   siz of   the  la st  la ye featur m ap,   we  ap plied  Gl ob al   A ve rage   Pooli ng  by   ta ki ng   t he  a verag of  eac featu re  m ap  an e xt ract  im po rtant  featur e s.  Since   the  netw orks   of  both   m od el gen era te   diff e ren f ea ture  m aps  with   diff e re nt  rang values the we  no rm alized  the  value of  these  featur m aps  i the  sam e   ra ng by  us in th lam bd la ye r Af te the  nor m al iz ation we   com bin these  value s   of the  featu res m aps  by c onca te nating  la ye r to im pr ov e  the  qu al it y o the  c reated sem antic  f eat ures.   Fo r   both  sin gle  m od el   and   m ulti - m od el   during   t he  trai ning   process the  da ta   aug m entat i on   is  one  of   the  m os popula m et ho ds   for  re du ci ng   ov e rf it ti ng.  Wh en  the  m od e is  trai ned   on  the  GPU,  t he  data  aug m entat ion   i perf or m ed  in   real - ti m on   the  CP U.   E xper i m ents  are  r un   on   a   sin gle  co m pu te with  a I ntel  Core  i 7 - 9750 Hex a - c or e   CPU,   16 GB  S DRAM,   an a NVI DIA  Ge Fo r ce  RT 2060  G PU  with   6G B   of  m e m or y. Pyt hon m od ules a re  u se t im ple m ent the neu ra l netw ork  m odel s.                          Figure  3.   The  a rch it ect ure  of  t he  si ng le  m od e netw ork   Fi gure  4.   The  a rch it ect ure  of  t he  c on cat e nate d netw ork   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Sta ti c ha nd ges ture rec ogniti on  of Ar ab ic   sig la ngua ge by  us in g dee CN Ns   ( Moha mma d H. Is ma il )   183   3.6.     E va lu at i on   of pr opose d metho d   To  e valua te   th perform ance  of   t he  be st  m od el pro posed   in  this  stu dy  by  com par in them   with   oth e stu dies  work i ng  on  sta nd a rd  data   set Since   the   pro po se m odel wer e   trai ne on  the   A rabi sig la nguag e   data  wh ic we  pre pa red,  so   the  m od el propose in  this  stud wer ret raine on   the  Am eric an  si gn   la ngua ge  (AS L)  sta ndar da ta wh ic Ka ggle   c halle nge  dev el op e d.   Th AS data  in cl ud es  87,00 i m age s   div ide into  29  cat egories:   26  le tt ers  fo al AS vocab ul ary  and   thr ee  le tt ers  fo s pac e,  delet e,  and   e m pty .   The  ASL  data  set   was  div ide into  three  set fo trai ning,  validat io and   te sti ng 80%  ( 69600  im ages)   of   th e   data  we re  us ed   for  trai ning,  10%  ( 8700  im a ges)   of  the  dat wer us e for  validat io n,  an 10%  ( 8700  im ages )   of   t he  data  use f or  te sti ng .   Th us t he  m od el ' per f or m ance  in  t his  stu dy  can  be  c om par ed  with  previ ou s   stud ie s t hat use the  sam e A S L d at aset .     3.7.     Ge neral  Workfl ow  of the  pr oposed  meth od   T h e   o p e n - s o u r c e   G o o g l e   M e d i a P i p e   t e c h n o l o g y   i s   u s i n g   t o   d e t e c t   t h e   ha n d s .   T h i s   p l a t f o r m   a l l o w s   u s i n g   r e a l - t i m e   c om p u t e r   v i s i o n   t e c h n o l o g y ,   i n c l u d i n g   h a n d   d e t e c t i o n ,   h a n d   t r a c k i n g .   I t   w a s   r e l e a s e d   i 2 0 2 0 .   T h e   G o o g l e   M e d i a P i p e   t e c h n o l o g y   p r o v i d e s   d e t a i l e d   r e a l - t i m e   f i n g e r   t r a c k i n g   w i t m u l t i p l e   h a nd s .   T h e   a c c u r a c y   o f   t h e   p a l m   d e t e c t i o i s   9 5 % .   M e d i a P i p e   u s e s   t w o   c o n v o l u t i o n a l   n e u r a l   n e t w o r k   m o d e l s   t o   d e t e c t   t h e   h a n d :   p a l m   d e t e c t i o n   a n d   f i n g e r   d e t e c t i o n   f r o m   a   p i c t u r e   o r   v i d e o   c l i p .   T h i s   w a s   u s e d   t o   d e f i n e   t h e   h a n d   r e g i o t h a t   w o u l d   b e   e x t r a c t e d   [ 2 8 ] .   T h e   s e q u e n c e   o f   f r a m e s   c a p t u r e d   b y   t h e   c a m e r a   i s   p a s s e t h r o u g h   a   m e d i a p i p e   f r a m e w o r k   h a n d   d e t e c t o r   t o   f i n d   t h e   h a n d   b o u n d a r y .   A f t e r   t h a t ,   t h e   h a n d   r e g i o n   i s   e x t r a c t e d   a n d   p a s s e d   i n t o   t h e   p r e p r o c e s s i n g   s t a g e   t o   r e s i z e   a n d   n o r m a l i s e   t h e   h a n d   r e g i o n   i m a g e .   T h e t h e   h a n d   r e g i o n   i m a g e   p a s s e d   i n t s i n g l e   o r   m u l t i - C N N   m o d e l s   f o r   s i g n   l a n g u a g e   r e c o g n i t i o n   b y   f e a t u r e   e x t r a c t i o n   a n d   c l a s s i f i c a t i o n .   F i g u r e   5   s h o w s   t h e   o v e r a l l   a r c h i t e c t u r e   o f   t h e   s y s t e m   f o r   h a n d   d e t e c t i o n   a n d   s i g n   l a n g u a g e   r e c o g n i t i o n .           Figure  5.  The   gen e ral  workfl ow of t he pr opos e m et ho d f or h a nd  detect ion an d g est ur recog niti on       4.   RESU LT S  AND DI SCUS S ION   The per f or m ance ev al ua ti on of  our pro po sal   has bee car rie d ou with t he f ollow i ng m et ri cs [29 ] ,   widely  used  fo this  kind  of ta sk : A ccu racy,  Pr eci sio n,  Rec al l and   F1 - sc ore. T hey are  de f ined  a s foll ows :       =           +         (1)       =            +         (2)        =       +                    (3)      = 2 × (    ×   ) (    +   )   (4)     False   n egati ve   is  resu lt   unde w hich  the  m od el   forecast th neg at ive  cl as wron gly.  Fal se  p os it iv e   is  res ult  unde w hic the   m od el   f or ecast the  posit ive  cl ass  w ron gly.  T ru n e gative  is   res ult  un der   wh i c the  m od el   fore cast the  ne gat ive  cl ass  accu r at el y.  Tru p osi ti ve  is  resul un de wh ic the  m od el   for ecast s   the posit ive cla s s accu ratel y.   Table  1   com pa res  the   validat i on  accu racy  an te st  accu racy   of  sin gle  m od el   an m ulti - m od el   with  epo c hs   e qu al   to  5.   Accuracy is  the  rati of   the  nu m ber  of   co rr ect   cl assifi cat ion to  the  total   nu m ber   of   cl assifi cat ion s.   I ncorr ect   rec ognize  t rainin g,  validat io n,  an te sti ng:  are   the  nu m ber   of  m isc la ssifie im ages   for  trai ning,  va li dation,  an te sti ng   res pecti ve ly The   ta ble  rev eal e that   both  t he  validat ion  acc ur acy   a nd  th e   te st  accuracy  wer at   le ast   97%  in  m os s ing le   or  m ultim od al   m od el s.  T he  accu racy  rati is  hig des pite  Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   24 , N o.   1 Oct ober  20 21 17 8   -   18 8   184   sever al   inc orre ct   reco gniz sign   im ages,  whet her   in  te sti ng  or  validat io du to  the  la r ge  siz of   the  data,   wh e re  22, 000  i m ages  of   the  data  wer us e for  each  of  te sti ng   and   va li dation.   T he  ta ble  al so   sh ows  the   com par ison   be tween  the  pe rfor m ance  of   the   sing le   m od el   and   m ulti - m od el It  app ears  t hat  the  m ulti - m od el   is   bette in  f eat ure extracti on a nd classi ficat io n t han the  sin gle.        Table  1.   C om par iso n of t he v al idati on  acc uracy  an d t est  ac cur acy   for  si ngle  an d m ulti - m od el s  w it h Ep oc hs = 5   Mod el   Inco rr ect R ecog n ize  Tr ain in g   Inco rr ect R ecog n ize  Valid atio n   Valid atio n   Accurac y  %   Inco rr ect  Reco g n ize T est   Test  Accurac y  %   Den seNet1 2 1   12   3   9 9 .99   1   100   VGG1 6   9   6   9 9 .97   5   9 9 .98   Den seNet1 2 1   &   V GG1 6   1   1   100   1   100   RESNet5 0   34   10   9 9 .95   6   9 9 .97   Mob ileNetV2   45   3   9 9 .99   6   9 9 .97   RESNet5 0   &  M o b ileNetV2   23   5   9 9 .98   5   9 9 .98   Xcepti o n   110   15   99 . 93   15   9 9 .93   Ef f icien t B0   267   53   99 . 85   38   9 9 .83   Xcepti o n & Ef f icien t B0   106   16   99 . 93   17   9 9 .92   NASNet Mob ile   2334   328   98 . 51   320   9 8 .55   Incep tio n V3   3883   50 8   97 . 69   491   9 7 .77   NASNet Mob ile   Incep tio n V3   3304   415   98 . 11   417   9 8 .10   Den seNet1 2 1   Mob ileNetV2   7   2   9 9 .99   1   100   Den seNet1 2 1 & RE SNet5 0   11   2   9 9 .99   2   9 9 .99       Table  2   show total   par am et ers FPS trai nin ti m e,  s iz of   featur e   m aps  and   to ta incor rect   recog nize  sig i m a ge  ou of   220  t hous a nd  f or  dif fe ren m odel s Total   pa ra m et ers The  pa ram et ers  sel ected   by   the  netw ork  du rin the  trai ning  process  a re  con si der e the  netw ork  pa ram et ers.   Their  num ber   deter m ines  the  com plexity   of  the  net wor and  the  possib il ity  of   bette le arn in g,   but  this  nee ds   m ore  i m ages  to  tr ai the  netw ork.   Train ing   Tim e:   The  tim is  ta ken   to  trai the  net work.  Size   of  f eat ur m aps:  the  siz of   la st  feature   extracti on  la ye r.   T he  fr am pe sec ond  (F P S)   is  t he  m os com m on   un it   of   ti m us ed  i obj ect   detect ion .   I t   ind ic at es  the  m axim u m   nu m b er  of  fr am es  that  the  net work  will   process  i seco nd.  total   inco rr ect   recog nize the num ber   of   m isc la ssifie im ages.   The  t op  th ree best   in  f eat ur e   e xtracti on  a nd  c la ssific at ion   m od el s   are   the  m ulti - m od el s,  D ense Net1 21  V G G16,  D e ns eN et 121  & Mob il eNet V2, an De ns e Net 121  RE SN et 50. I is base on  the   total   nu m ber   of  In c orrect  Re co gn iz si gn  im a ges  in   the  trai ni ng ,   validat io an te sti ng   da ta set It  is  cl ear  f ro m   the  ta bl that  the  trai ning  ti m fo the  m ulti - m od el   is  great er  than  t he  trai ning  tim fo the  sin gle  m od el that  com po se  it   and   le ss  t han   t he  trai ni ng   ti m for  both  si ngle   m od el s.  It  al so   s hows  that  t he  FP in  the  m ul ti - m od el   case  is  le ss  than   the   s ing le   m od el   a nd  ra nges  bet ween  66 - 96%   of  the  FPS   of  si ng le   m od el s.   It  al s rev eal ed  th at   wh e t he  total   par am et ers  ar increase d,  th FPS  dec reas es.  T hese  are   evide nt  in  t he  m ul ti - m od el   in   wh ic h   the total   par am et ers  are  great e tha t hat of t he  si ng le  m od e l.       Table  2.   T otal  pa ram et ers,  FPS an t otal i nc orrec t rec ogniz e f or   dif fer e nt  dee p C N m od el s   Mod el   Total  Para m eters*1 0 6   Tr ain in g  T i m (ho u r)   Size of  Feature  Maps   FPS Fo Inf erence   Total Inco rr ect  Reco g n ize   Den seNet1 2 1   7 .08   2 .13   3 * 3 * 1 0 2 4   24   16   VGG1 6   1 4 .73   1 .52   3 * 3 * 5 1 2   32   20   Den seNet1 2 1   &  V GG1   2 1 .81   3 .17   1536   22   3   RESNet5 0   2 3 .67   1 .58   4 * 4 * 2 0 4 8   28   50   Mob ileNetV2   2 .31   1 .17   4 * 4 * 1 2 8 0   32   54   RESNet5 0   &   Mob ileNetV2   2 5 .99   2 .28   3328   24   33   Xcepti o n   2 0 .95   2 .00   3 * 3 * 2 0 4 8   28   140   Ef f icien t B0   4 .10   2 .23   4 * 4 * 1 2 8 0   24   358   Xcepti o n   &   Ef f icien t B0   2 5 .05   3 .55   3328   19   139   NASNet Mob ile   4 .31   3 .68   4 * 4 * 1 0 5 6   21   2692   Incep tio n V3   2 1 .89   2 .18   1 * 1 * 2 0 4 8   23   4882   NASNet Mob ile &  Incep tio n V3   2 6 .3   4 .77   3104   16   4136   Den seNet1 2 1   &   RESNet5 0   3 0 .76   3 .22   3072   23   15   Den seNet1 2 1   & Mob ileNet V2   9 .39   3 .12   2304   21   10   Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Sta ti c ha nd ges ture rec ogniti on  of Ar ab ic   sig la ngua ge by  us in g dee CN Ns   ( Moha mma d H. Is ma il )   185   Seve ral  sin gle  and  m ulti   m od el ha ve  been  trai ned  an te s te d.   DenseNet 121  a nd  VGG 16  net wor extracti ng  dee featu res  is  be tt er  than   oth er   netw orks  base on  the   m et ho desc ribe a bove C om par ed   to  t he   con cat e natio of   De ns eNet 121  an VGG 16   neural  net wor ks  with  oth e ne ur al   netw orks The   higher  acc ur ac y   is  ob ta ine with  the  c on cat e na te netw ork We  we re  a ble  to  hel the  network   le a rn   t he  represe ntati on   of   bo t by  con cat e nating  the  feat ur vecto rs  of   bo t networks,  w hich  accu ratel rep rese nted  the  i m age  and   pro du ce a b et te acc ura cy  o f  pr edict io n.     The  si ng le   m od el use i t he  propose m et ho were  arr a ng e on  T ables  an 2   accor di ng   t accuracy  that  de pends  on  the  total   In c orrect  Re cognize.  A fter  that,  the  m ulti - m od el wer e   us ed  f or   e ver y   two  sing le   m od el in  the  se qu e nc e,  m eaning   f our  m ulti - m od e ls.  The ot her  op ti ons  wer add e us in th best   sing le   m od el   with  oth e si ngle   m od el outsi de  the   seq ue nce.   F ig ur e   6   sho ws  t he  tra ining  a nd  vali dation  accuracy  in  add it io to  the   trai nin an validat io loss   of   m ult i - m odel   Den seNet 12 an VGG 16.  The  accuracy c onti nu e s to  incr ea s e, and t he  lo ss  rate dec reases   durin t he  trai ning a nd v al i da ti on   ph a ses.             Figure  6.  The  trainin a nd  validat ion  a ccu rac y i ad diti on to  the trai ning a nd  validat io lo ss of m ulti - m od el   Den s eNet 121 & VG G16       Table  of   44 - cl ass  co nfusi on  m at rix  the  m od el   is  us ed   f or  data  a ugm ent at ion   te c hn i ques  in  ArS L   i m age  cl assifi cat ion Col um ns   represent  the   true  cl asses,  a nd   th cl assifi er' pr edict io ns  are  represe nt ed  by  rows.  All  c orre ct ion   cl assifi ca ti on a re  ar ra nged   in  t he   diag on al   of  s quar m a trix.  T he  r esults  of  the   m ulti - m od el   neu ral  netw ork  e valu at ion   of   De nse Net1 21  an VGG 16   a re  il lustrate f or   t he   trai ning  a nd  te sti ng  netw orks  i t he   co nfusion   m at rix  s how i Figures  an 8.   Fig ur e   s how  ta bula ti on  of  preci sio n,   reca ll f1 - scor e an sup port  for  each  c la ss  of   trai ni ng  networ to  re cognize  A rab i sign   la ngua ge   with  the  ta sk  of   the   44 class  by  m ulti - m od el  D e nse Net1 21 & V G G16.               Figure  7.   Trai ni ng   c onf us io n m at rix  of m ulti - m od el   Den s eNet 121 & VG G16   Figure  8.   Test in co nfusi on  m at rix  of m ulti - m od el   Den s eNet 121 & VG G16     Evaluation Warning : The document was created with Spire.PDF for Python.
                          IS S N :   2502 - 4752   Ind on esi a J  E le c Eng &  Co m Sci,   Vo l.   24 , N o.   1 Oct ober  20 21 17 8   -   18 8   186       Figure  9.   Tabul at ion  of  pr e ci sion ,  r ecal l,  f 1 - s cor e , a nd sup port  for  eac cl a ss for t est ing &  trainin g netw ork  of  m ul ti - m od el   D ense Net1 21 & VG G 16       Table  3   com pa res  the   validat i on  accu racy  an te st   accu racy   of  sin gle  m od el   an m ulti - m od el   with  epo c hs  eq ual  t for  t he  A SL  dataset T he   ta ble  s hows   the  c om par iso betwee t he   pe rfor m ances   of  the  sing le   m od el   and   m ulti - m od e l.  It  ap pear t ha the  m ulti - m od el   is bett er  in  feat ur e xtra ct ion   an cl ass if ic at ion  than  the  sin gl m od el s.  In   a dd it io n,   10 0%   accuracy  was   ob ta ine in  each  of  the  trai ning,  validat i on  an te sti ng   of  t he m ul ti - m od el  if  the traini ng w a s incr ea sed  at e po c hs eq ual  7.   Table  4   s hows   the  c om par iso bet ween   this   work   a nd   pr e vious  w orks  f or   the  AS da ta set Fr om   Table 4 , it i s clea that t he pr opose m et ho d,  wh et her   us in g a si ng le  m od el   or  a m ulti - m odel , is b et te tha the  m od el s p rese nt ed  in  the  previ ou s  stu dies  refe rr e to  in  t he  t able.       Table  3.   C om par iso n of t he v al idati on  acc uracy  an d t est  ac cur acy   f or si ngle  an d m ulti - m od el s   with  Epo chs= for ASL  datase t   Mod el   Inco rr ect R ecog n ize  Tr ain in g   Inco rr ect R ecog n ize  Valid atio n   Valid atio n   Accurac y %   Inco rr ect  Reco g n ize T est   Test  Accurac y %   Den seNet1 2 1   10   1   99 . 99   0   1 00   VGG1 6   38   6   99 . 93   3   99 . 97   Den seNet1 2 1 & VG G 16   2   0   1 00   0   1 00     Evaluation Warning : The document was created with Spire.PDF for Python.
Ind on esi a J  E le c Eng &  Co m Sci     IS S N:  25 02 - 4752       Sta ti c ha nd ges ture rec ogniti on  of Ar ab ic   sig la ngua ge by  us in g dee CN Ns   ( Moha mma d H. Is ma il )   187   Table  4.   C om par iso this  work a nd pre vious  works f or  AS L  d at aset   Au th o rs   Descripti o n   Accurac y   Lu m   et  al .,  20 2 0  [ 3 0 ]   Tr an sf er  lea rnin g  us in g  M o b ileNetV2  on  29  classes   9 8 .67 %   Sin h et al .,  20 1 9  [ 3 1 ]   Cu sto m  CN m o d el with   f u lly  con n ected lay e o n  29  cl ass es   9 6 .03 %   Kad h i m   et al . 2 0 2 0  [ 3 2 ]   Tr an sf er  lea rnin g  us in g  VGG1 o n  28  classes   9 8 .65 %   Pau et al 2 0 2 0  [ 3 3 ]   Cu sto m  CN m o d el with f u lly  con n ected lay e o n  24  cl ass es   9 9 .02 %   Mah m u d   et al . 2 0 1 8  [ 3 4 ]   HOG featu re  extra ctio n   &  K NN cl ass if ier  o n  26  classes   9 4 .23 %   Prasad  20 1 8  [ 3 5 ]   I m ag m ag n itu d g radien t f o f eatu re  ex traction  on  24  classes   9 5 .40 %   Ph o n g  & Rib eiro 2 0 1 9  [ 3 6 ]   Tr an sf er  lea rnin g  on   m u ltip le  ar ch ite c tu re,  etc  on  29  classes   9 9 .00 %   Ash iq u zza m an   et a l .,  20 2 0  [ 3 7 ]   Tra n sf er  lea rnin g  us in g  VGG16  on  29  class es   9 4 .00 %   This  work   s in g le  m o d el   Tr an sf er  lea rnin g  us in g   Den seNet1 2 1 o n  29  classes   1 0 0 .00 %   This  work   s in g le  m o d el   Tr an sf er  lea rnin g  us in g   VGG1 6   o n  29  class es   9 9 .97 %   This  work   m u lti - m o d el   Tr an sf er  lea rnin g  us in g   m u lti - m o d el  Den seNet1 2   &   VG G1 6  on  29  classes   1 0 0 .00 %       5.   CONCL US I O N   Thro ugh  a naly sis  an discuss ion   of  the   res ul ts  of   t he  pro pose m et ho d,  and  un der  the  lim it at ion adopted  by  th researc h,   the   fo ll owin wa con cl ud e d:  The  resea rc pr e par e a bout   220  th ou sa nd   co lour   i m age  dataset s,  as  the re  is  no   public  col our  dataset   f or   Ar a bic  sig la ng ua ge  rec ogniti on.  When  c om par in the  pe r form ance  of  si ng le   m od el s   an m ulti - m od el s,  it   ap pear s   that  m os m ulti - m od el are  bette i f eat ur e   extracti on  tha sin gle  m od el s.  The  Den s eNet1 21   is  t he   best  CN m od el   fo e xtracti ng   featu re an cl assify ing   t he  Ar a bic  sig la ngua ge  by  de pe nd i ng  on  t he  t otal  num ber   of   inco rr ect ly   rec ognized   sig i m ages   in  trai ning,  val idati on   an te s ti ng   dataset s.  F ur t her m or e,  ba sed  on  the  tota nu m ber   of   i nc orrectl reco gniz ed   sign   im ages  in  trai ning,  vali da ti on a nd   te sti ng  dataset s,  th Den s eNet 121  VGG 16   m ulti - m od el   CNN  is  the  best  f or  e xtrac ti ng   featur e a nd  cl assify in Ar a bic  sig la ngua ge.   The   m ul ti - m od el   is  bette for  t he  featur e   extracti on  a nd  cl as sific at ion   of  A SL  t han  the   sin gle  m od el by  us i ng  the   pr opos e m et ho d.  A nd  the   acc uracy  of   t he  pro po se m et ho d,  w he ther  us in a   sing le   m od el   or  m ult i - m od el ,   is  bette t han  the  m od el pre sented   in  the  previ ous  stud ie in  e xt racti ng   feat ures  and   cl assify in A SL.  In   f uture  resea rches,  the  w ork  will   be  exten ded  to   de velo a   m ob il e - base ap plica ti on   t rec ogniz A rab ic   sig l angua ge  i rea l - tim e.  And  al s o,   t he  syst e m   will   b exten ded   t us dy nam ic  gestu re  rec ogniti on   for  A ra bic  sign   la ngua ge,   wh ic re qu i res   p re par i ng a  vide o - base d datas et .       REFERE NCE S   [1]   A.  Thongt awe e,  O.  Pins anoh,   and  Y.  Kitj a idu re,   Novel  F ea tur Ext r ac t io for  Am eri ca Sign  La nguage  Rec ognition  Us ing  W ebc am,”   11th  Bi omedi cal   Engi ne ering  Int ernati onal  Conf ere nce   ( Bme ic o n) ,   2018,   pp.   1 - 5,   doi 10 . 1109/B MEiCON.2018.8609933 .   [2]   A.  Al - Khali fa ,   The   Arabi Dict ion ar y   of  Gest ure   for  the   Dea f, ”  Suprem Counic a for  Fam il y   Affai rs ,   2008 .   [Online ] .   Avai lable: ht tps: // ar ab.org/di re ct or y /su pre m e - counc i l - f amil y - aff a irs/   [3]   M.  Mukus hev,   A.  Sab y rov ,   A.   Im ashe v,   K.  Koishiba y ,   V.  Ki m m el m an,   and  A.  Sand y gu lova,  Eva luation  o f   Manua and  No n - Manua Com ponent for  Sign  La nguag Re cogni ti on ,   Proce ed ings  of  the  12th  Language  Re sour ce s and   E val uati on   Conf ere nce 2020 ,   pp .   6073 - 6078.   [4]   H.  Cooper,   B.   H olt ,   and  R .   Bowden,   Sign  La ng uage   Re cogni t io n, ”  V isual  Analy sis  of  Hum ans London:   Springe r,   pp.   539 - 562 ,   2011 ,   doi :   10 . 1007 /978 - 0 - 85729 - 99 7 - 0_27.   [5]   A.  H.  Vo,  V.  H.   Pham ,   and  B.   T.   Ngu y en ,   Dee Learni ng  for  Viet namese  Sig La nguag Re c ogn it ion  in  Vid e Sequenc e ,   Int e rnational   Journ al  of  Mac hin Learning  and  Computing ,   vol.  9 ,   no.   4,   pp.   440 - 445,   2019 ,     doi:   10 . 18178/ij m lc . 2019. 9 . 4. 82 3.   [6]   S.  M.  El ataw y ,   D.  M.  Hawa,   A.  A.  Ewe es,   an A.  M.  Saad,   Rec ognit ion  S y stem  for  Alphabe Arabi Sign   Lan guag Us in Neutr osophic   and  Fuz z y   C - Mea ns ,   Education  and   Info rm ati on  Techno logi es ,   vol .   25 ,     pp.   5601 - 5616 ,   2020 ,   doi :   10 . 10 07/s10639 - 020 - 10184 - 6.   [7]   S.  Ha y an i,   M.  B ena dd y ,   O.  El   Meslouhi,   and  M.  Kardouc hi,   Ara Sign  La nguage  Rec ognition  wit h   Convolut ional   Neura Network s,”   2019  Inte rna ti onal  Conf ere nc of   Computer  S ci en ce   and  R enewable  En ergie ( I CCSRE ) 2019 pp.   1 - 4,   doi:   10 . 1109/ICCSRE. 2 019. 8807586   [8]   R.   G.  Crespo,   M.  Khari ,   E .   Verd ú,   M.  Khari ,   a nd  A.  K.  Garg,   Gesture   Rec og nit ion  of  RGB  and  RGB - Stat i c   Im age Us ing  Convolut ional  Neura Network s,”   Inte rnati ona Journal  of  Int erac tive  Mul ti m edi &   Arti fi cial   Inte lligen ce ,   vol .   5 ,   no.   7,   pp.   23 - 27,   2019 ,   doi:   10 . 9781/i j imai. 201 9. 09. 0 02 .     [9]   A.  Dada shza d eh ,   A.  T .   Ta rgh i,   M.  Ta hm asbi,   a nd  M.  Mirm ehdi ,   Hgr - Net:   Fus ion  Network  for  Hand  Gesture   Segm ent at ion  a nd  Rec ogni ti on ,   I ET   Compute Vi sion ,   vo l.   13 ,   no.   8,   pp .   7 00 - 707,   2019 ,   doi:   10. 1049 /iet - cvi . 2018 . 5796.   [10]   A.  I.   Shah in  an S.  Alm ota ir i ,   Autom at ed  Arabi Sign  La ngua ge  Rec ogn it ion   S y stem  Based  o Dee Tr ansfe r   Le arn ing,”  I JCSNS  Int. J.  Comp ut.   S ci.  Ne tw. Secur. ,   vol. 19, no. 10, pp. 144 - 152 ,   2019 .   [11]   E.   E lsa y ed  and  D.  R.   Fath y ,   Si gn  La nguag Se m ant ic   Tr ansla t i on  S y stem  Us ing  Ontolog y   and  Dee Learni ng ,   Inte rnational   Jo urnal  of  Adv an ce Computer  Sci en ce   and  A ppli cations,  vol .   11,   no. 1 ,   pp.   141 - 147,   2020   doi:   10 . 14569/IJ ACS A.2020. 0110118.     Evaluation Warning : The document was created with Spire.PDF for Python.