Int ern ati onal  Journ al of Ele ctrical  an d  Co mput er  En gin eeri ng   (IJ E C E)   Vo l.   10 ,  No.   4 A ugus t   2020 ,   pp.  3576 ~ 35 87   IS S N:  2088 - 8708 DOI:  10.11 591/ ijece . v 10 i 4 . pp3576 - 35 87           3576       Journ al h om e page http: // ij ece.i aesc or e.c om/i nd ex .ph p/IJ ECE   Deep - lea rning ba sed sin gle object tracke r f or night  surveilla nce        Z ulaikha  K adi m 1 M oh d  As yraf Z ulki fley 2 N ab il ah H am z ah 3   1 ,2 Depa rtment  of   Elec tr ic a l, E l ect ronic   and  S y s tem s E ngine eri ng ,   Facul t y   of  Eng in ee ring   and   Buil t   Envi ronm en t,  Univer siti   Keba ngsaa Mal a y s ia Mal a y s ia   1 MIM OS   Berha d,   T ec hnolog y   P ark   Mal a y s ia,  M al a y sia   3 Facul t y   of  E lect ric al E ng ine e rin g,   Univer si ti T ek nologi   Mar (Ui TM),   Mal a y s ia       Art ic le  In f o     ABSTR A CT    Art ic le  history:   Re cei ved   A ug  23, 201 9   Re vised Jan  29 , 2020   Accepte Fe b 7, 2 02 0     Tra ck ing  an   ob je ct  in   night  surveil l ance  vid eo   is  a   challe ng i ng  ta sk  as    the   qu al ity   of  th c apt ure d   imag is  norm all y   po or  with  low  brig htne ss   and   cont rast .   The   t a sk  bec om es  har der   for  sm al obje ct   as  fewe fea tur es  are  appa ren t.   Tra di t iona appr oac h   is  base on  improving  the   image  qua lit y   bef ore   tra ck ing  i per form ed.   In  t his  pape r ,   a   sing le   obj ec t   tr ac kin al gori thm  base on  de ep - le arn ing   appr o a ch  is  proposed   to  expl o it   it outsta nding  ca pab il ity   of  m o del li ng  ob je c t’s  appe ar anc eve n   during  night .   T h al gori thm  uses  pre - traine d   convol uti on al  ne ura n et works   co uple wit ful l y   conne c te d   lay ers,   whi ch  ar tra in ed  onli n during  the   tr ac ki ng  so  tha it   is  a ble   to  c at e r     for  appeara nc e   cha nges  as  th object  m oves   aro und.   V ari o us  le arn ing   h y per p ara m eters  f or  the   opti m iz at ion  fun ct ion ,   le arn ing  r at a nd  rat io  o f   tra ini ng   sam ples   are   t este to   find  opti m al   s et up  for  tr ac k in in  night  sce nar ios.  Fourt ee night   surve il la n ce   vid eos  are   col l ec t ed  for   val ida t ion   purpose,   which  a re  ca ptur ed  from   thre vie wing  a ngle s.  The   results   show  tha the   best  a cc ur acy   is  obt ai ned  b using  Adam   op ti m iz er  with  le a r ning  rat o f   0. 00075  and   sa m pli ng  rat io   of  2:1  for  posit ive  and  n ega t ive   tr ai ning  d ata.  Thi al gor it hm   is  suita ble  to  b implemente in  highe le ve surveil la n c e   appl ic at ions   suc as  abno rm al   be havi ora l   re cogni t ion.   Ke yw or d s :   Deep - le ar ning  obj ect  trac ker   Night s urveil la nce  vid e o   Visu al   obj ect  t rack i ng   Copyright   ©   202 0   Instit ut o A d vanc ed   Engi n ee r ing  and  S ci en ce   Al righ ts re serv ed .   Corres pond in Aut h or:   Zulai k ha Kadi m   Dep a rtm ent o f El ect rical , Elect ronic an d Sy stem s En gi neer i ng,   Faculty  of E ngineerin a nd B uilt  Environm e nt ,   Un i ver sit i Ke ba ngsaan  Mal ay sia   Ba ng 4365 0,   Ma la ysi a.   Em a il zulai kh a.k a dim @ m i m os .m y       1.   I NTR ODU CT ION     The  r ole  of   vi de surveil la nce   is  to  pr ovide  a   pr otect ive  m e an  thr ough  m o nitor i ng   a nd   an al yz ing   any   abno rm ality  in  the  scenes N ow a days,  it   is  beco m ing   m or i m po rta nt  with  the  e ver   increasin num ber   of  crim es.  Cri m can  ta ke  place   anyt i m a ll   ov er  the  dayb ut   it   is  m or pr evalent  duri ng   night  tim e,  especial ly  after  the  m idn igh t.  W it the  app li cat ion   of   autom at ed  vide surveil la nce   syst e m i can  prov i de  co ntinuo us   m on it or ing ser vice f or 24/7  wi th m ini m al  d epende ncy on t he  secu rity  o f ficer.   In   t h past  dec ades,  resea rch   in  aut om at ed  vid eo  s urveil la nc ap plica ti on s   has  e volve tr e m end ously   and  m any  sign ific ant  pro gresses  ca be  obser ved  th rough  a vaila bity   of  m any  co m m ercial   pr oducts  i   the  m ark et Thanks  to  the  ne breakt hroughs  in  softwar te chn o l og y,  it   has  becam e   m or eff ect iv an afforda ble.  T he   key  te ch no l og yi the  e ff e ct iveness  of  these  syst em is  the  abili ty   to  detect   a nd  track     the m ov ing o bj ect  ev en  in  t he dar e nviro nme nts,  es pecial ly  dur i ng the  night.    Both  obj ect   de te ct ion   an ob j ect   t rack i ng  a re  the  f undam ental   com po ne nts  in  a a utom at ed  vid e su r veill ance  a pp li cat ion.  O bject   detect ion   ta sk   is  to  detect   the  pr ese nc of   ob j ect   of  interest   in  the  vid e fr am e.  Wh il e,  obj ect   trac king   connects  a nd   analy ses  the  obj ect   m ov em e nts  f or   t he  su c ce ssive  vi deo   f ram es.    The  inf orm ati on   der i ved   from   the  tracke can  be  us e to  further   a na ly ze  and   de duce  obj ect   act ivit ies     Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  Com En g     IS S N:  2088 - 8708       Deep - le arnin g based  sin gle objec t t ra cker f or ni gh t s ur vei ll an ce   ( Zu l aikh a K adim )   3577   in  the  vid e o.   T her a re  m any  researc hes  has  been  do ne  on  t hese  tw t op ic s,  ho wev e r,   m os of  them   focuses   on the  bri ght e nv i ronm ent, w i th li tt le  e m ph asi ze o n dar e nvir on m ent.    Object  trac king  f or  ni gh s urveil la nce  is  a   ver c halle nging   ta s m ai nl du t lo inf or m at ion   captu red  by  t he   norm al   RGB  cam eras.  The  captu red  im ag es  ha ve  l ow  br igh tne ss,  l ow  c on t rast  an nea rly   no  disti nguish a b le   color   i nfor m at ion It  is  w ors if  the  obj ect   is  s m al l   in  size,   cause by  the  fa distance   from     the  ca m era  [1 ,   2] Although,   m os of   the  recent  cam era are  equ ip pe with  night  visio te chnolog t i m pr ove  im age   qual it in  low - li gh c onditi on,  ye t,  the   im a ge  qu al it is  sti ll   no   m at ch  as  com par ed  t the  day  tim i m a ge.   In  so m cases,  t her m al   infr are cam era  is  us ed  f or   night  surveil la nce  [ 3,   4] but  the  cost   of   this  ty pe  of   cam era  is  relat ively  too   co stl y.  H ence,  night  surveil la nce  is  norm al ly  per f orm ed  us in da y/ nig ht   CC TV  cam era w it a dd it io n o f   IR  f il te a nd IR  il lu m inator  f or b et te r nig ht  visio n.     These   days,   de ep - le ar ning   stud has   bec om center   of  at te ntio am ong  resea rch e r in  div e rse   fiel ds   that  inc lud obj ect   de te ct ion cl assif ic at ion facial   and   s peec r ecognit ion,  re hab il it at ion m achi ne   translat ion  an et c.  [5 - 11] D eep - le ar ning  is   s ubfiel of  m achine  le ar nin that  was  i nspire by  the   hu m an  br ai n’ str ucture  cal le ne uro n,   w hich  ca be   ada pted  t le arn   c om plex  re la ti on sh i [ 5]   and  can   be   ext end e to  m ult i - la ye netw orks  f or  non - li near   pro blem s.  Ther are  m any  t ypes  of   deep - le ar ning  arc hitec ture,   i.e .   Conv olu ti onal   Neural  Net wor (C NN),  Ge ne rati ve  A dvesa rial   Netw ork  ( GAN ),   Re cu rrent  Ne ur al   Networ ks  (RN N)  an et c Am ong  al of   them CNN  is   the  m os wide ly   us ed   arc hitec ture,  especial ly   in  c om pu te visi on   fiel f or  ob j e ct   detect ion ,   r ecognit ion  an trac king.  C NN  arc hitec tu re  wa dev ise by  Ya nn  L eC un   i   1998  [ 7],  w here  the  featur e xtracto is  al so  trai ned   instea of  ha nd - c raf t e d.   Fi gure  s hows  a exam ple  of  basic  CNN  str uctu re  [12]  tha con sist of   t wo   c onvoluti onal   la ye rs,   two  pooling   la ye rs on fu ll connecte   la ye and   on e   ou t pu la ye r   that  def ines   the  final  cl assifi cat ion   acc ordin to  the   nu m ber   of  c la sses.     The  c onvoluti on al   la ye rs  in  CNN  act as  t he  detect io fi lt ers  to  extract   sp eci fic  feat ures  or   patte r ns   that  ar e   pr ese nce  in   the   i m age.  A ad di ti on   of  ne l ay er  will   incre ase  the  com plexity thu al lo ws  it   to  capt ure  m or e   abstract  featur e s.            Figure  1 .  An e xam ple o f basi c CN N netw ork [12]       Du e   to  the   CN ca pab il it y,  this  pa pe pr opos es  m et ho of   onli ne  trac ki ng   of  ob j ect   of  interest   for   night  surveil la nce  ap plica ti on   thr ough  dee p - le ar ning  a ppro ac h.   net w ork  with  co nvolu ti onal   la ye rs  a nd    f ully   connec te la ye rs  is  use to  m od el   the  ob j ect   ap pe aran ce  as  pro pose in  [ 13] The  f ully - co nn ect ed   la ye rs  will   be   updated   onli ne   to  cat er   the  c hanges   in  ta r ge obj ect   a pp e aran ce   as  it   m ov e ar ound  t he   scen e   unde dif fer e nt   li gh ti ng   c ondi ti on s.  Va rio us  hyperpa ram eter f or   on li ne  le arn in are  e xp e rim ented,   wh ic include   the  se le ct ion   of  op ti m iz ation   al go r it h m s,  on li ne  le arn in rates  and  trai ning  s a m ple  rati to   fin   the opti m a l t rack er  setu p.   The  m a in contrib ut ion s  of this  wo rk are:   -   On li ne  ta rg et   t rack in f ram e wor f or   nigh su r veill ance  vid e that  util iz es  deep - le ar ning  ap proac to  dynam ic ally repr ese nt tar get a pp ea ra nce m odel   -   Re search  on t he  i m pact o f  opt i m al  o nline learni ng h y perpar a m et ers  for  the  b est   overall  tr ackin acc ur ac y.   The  rem ai nd er   o this  pap e is  or ga nized  a fo ll ows:  Sect ion   disc us s es  so m rela ted   w orks  on   visu al   obj ect   tracki ng.  Sect ion   desc ribe the  pr opos e m et ho d,   fo ll ow e by  ex pe rim ental   resu lts  an discussi on in  S ect ion   4.   Finall y, Sect ion 5  conclu des  al l t he   researc h fin dings.       2.   RELATE D  W ORKS   This  sect io w il discuss   ge ne ral  ap proach   t vis ual  ob j ect   trackin g,   fo ll owed  by  s pecial iz ed  track e r   for  night  surv ei ll ance  app li cat ion an the   evo luti on  of  obj ect   trackin al gorithm   towards  dee p - le arn i ng   appr oach.  good  ob j ect   tr acker  is  de fine as  an  al gori thm   that  is  ca pab le   of  pr ov i ding  accu rate  obj ect   local iz at ion   wi th  co ns ist ent  obj ect ’s  trac king  la bel  ac ro s s   su ccessi ve  f ra m es.  Object  tr ackin stu dies   ha ve  been   a act ive   researc fiel for  the  past  se ver al   decad es and   ha ve  d em onstrat ed  good   pro gr ess   in  diff e ren t   Evaluation Warning : The document was created with Spire.PDF for Python.
                          ISSN :   2088 - 8708   In t J  Elec  &  Com En g,   V ol.  10 , No 4 A ugus t   2020   :   3576   -   3587   3578   scenari os   a nd   app li cat ions.  Most  of  the  tr ackin al gorit hm are  based  on   t rack i ng - by - detect ion   pa rad i gm wh e re by  obj ec of   inte rest  is  detect ed  in  e ver f ram e,  w hich  will   beus ed  to  update  t he  trac king  st at es  of    the  o bj ect .   T his  ap proac is  heav il de pende nt  on  th detect ion   a ccur acy T hus an  im pr ovm ent  in     the  detect io al gorithm   will   lead   to   bette t ra ckin acc ur acy   accor dingly Am on oth e rs,  so m good  tra ckin g - by - detect ion   al gorithm are  pr esente in  [ 14 - 20] So m of   these  tracki ng  ap proac hes  are  able  to  f unct ion  well unde go od  li gh ti ng  c onditi on s ho wever,  their  pe rfo rm ance  deterior at as  the  e nv i ronm ent  beco m es  darker  s uch as  in n i gh surveil la nce appli cat ion.    Pr e viously on of  the  c ommon  ap proac hes   to  im pr ov t ra ckin perform ance  f or  ni gh su r veill ance     is  by  introd ucing   pr e proce ssing   m odule  to  enh a nce  im age  qu al it for  the  case  of  under e xpos e a nd  lo w   con t rast  e nv ir on m ents.  S ome   exam ples  of   the  pr e proces sing  ste are   histo gr am   equal iz at ion histo gr am   sp eci ficat ion  a nd  inten sit m app i ng.  Anothe a ppro ac is  thr ough  a naly zi ng   t he  c on t ras le vel  so  that  obj ect   detect ion   will   be  i m pr oved  be fore  tracki ng   is  per f or m ed.   This  is  based   on   the  ass um ption   that  the  hum an   visu al   syst e m   is  de pende nt  on  t he  neig hbour hood  sp at i al   relat ion  to   it bac kgr ound.   Hu a ng  et   al .   [ 1]  use con t rast  cha ng es  inf orm ation  betwee su cc essive  fr am es  to  im pr ov e   ob je ct   detect ion   a ccur acy   i the   night  vid e ap plica ti on.  L ocal  co ntr ast   is  com pu te by d ivi ding  the  local   sta nda rd  d e viati on  o f   i m age  in te ns it with   local   m ean  int ensity Then,  the  obj ect   is  det ect ed  by  thres holdin the  co nt rast  change  bet ween   the  s ucce ssive  fr am es.  The  com pu ta ti on   is  qu it fast,  bu the  local   con tr ast   inform ation   to  in dicat t he  presence  of  obj ec t     of   i nterest  m i gh be  m i sle a ding  as  t he  ba ckgr ound  in f or m at ion   it sel m a con trai high  l ocal  co ntrast.     On  the  oth e hand,  the  obj e ct   m igh ha ve   alm os si m il a ap pea ran ce   th at   pro duces  l ow  local   c on t rast.   Lat er  in  [ 21] Hu a ng  et   al pro posed  m otion   pre dicti on   a nd   s patia nea res neig hbou r   data  associat ion   t furthe s uppr e s the  false   det ect ion In  [ 2],  Wang  et   al i m pr ov Hu a ng ’s  CC   m od el   by   introdu ci ng  sal ie nt   con t rast  chang (S CC ),   w hich  involve  tw m or ste ps on li ne  le arn in and   a naly zi ng  the  detect ed  obj ect   trajecto ries.  B app ly ing   t hr es hold  on   t he   con t rast  cha ng outp ut,  it   is  m or sensiti ve  to  sli ght  ch ang e in  the  li gh ti ng  le vel.  T hu s   Nazi et   al [ 22]   m ulti plye S hahnon ’s  ent ropy  est i m ation   wit their  own   co ntrast  est i m ation   to  pro duce  il lum inati on   in var ia nt  represe n ta ti on.  I [ 23] ve hic le in  night  s urveil la nce  vi deos  are   detect ed  by  co m pu ti ng   H OG  featur es  as  i nput  to  s upport   vector   m achine  (SVM)  t cl assify   the  de te ct ed  obj ect  eit he as   a v e hicle  or  not,  befor e  K al m an  filt er is a ppli ed  to  trac t he vehicl es.     Ap a r from   pr evio us ly   m entio ne ap proac he s,  there  are  a lso  few   rese arch es  that  ha exp loit e ca m era  te chnolo gy  to  incr ease  the  dete ct ion   an tra ckin accu rac in  night  env i ronm ent.  In   [ 24 ]   the  resea rch e r has  us e far - inf rar e cam eras  to  obta in  t he  f oreg rou nd  inf or m at ion   thr ough  backg r ound  subtract ion   te c hn i qu e I [25] the  researc he rs  has  us e a   near   in fr a re ca m era  to  detect   ped est ria ns   us in adap ti ve   pre processin te c hniqu f or   t he  nig ht  e nvir on m ent.  Anothe re search   in  [ 26 ]   has  us e f usi on   of   two  dif fer e nt  t ypes  of  cam er a,  w hich   are   li gh visible  ca m era  an F IR  ca m era  m ou nted  on  ca t detec t   ped e stria ns   durin the  day  and   night  tim es.   Even   with  the   help  f ro m   i mp r oved  cam era  te chn ol og y,  t he   total   cost  of  t he  syt e m s h as r ise n be cause  of m or com plex  sensi ng h a r dw a res.   Deep   le a rn i ng  has  been   popula rized  by  th introd uction  of   Alex Ne in  20 12,  w he it   has  w on   Im ageN et  co m petit ion  for  im age classi ficat ion  tas [ 27] . E ver  si nce, deep  learnin ha s bee wi dely  ap pl ie in   m any  app li cat ions ove rsh a dowi ng   t he  othe tradit io nal  m achine  le arn i ng   a ppr oach e s   su ch  as  SVM   and  arti fici al   neura netw ork  (AN N).  I [ 28 ] C NN  is  us ed   to  detect   hum an  pr ese nce  i night  s urveil la nce  vid e os   as  an  in put  to   obj ect   trac ke r.   T heir  pro posed  netw ork  c onsist of  fi ve   conv olu ti onal   la ye rs  an fu ll connecte la ye rs.   T he  input  im age  is  resized  to  183x 119  first,  be fore  hi stogram   equ al i zat ion   is  app li ed  f or  hu m an  detect ion   ta sk.  The  pro posed  m et ho is  cl os el rel at ed  to  hu m an/backgro und  cl assifi cat ion   in  night   scene rat her   t han   trac king  pro blem An othe early   effor in  app ly in CNN  in  obj ect   tracki ng   is  pro pose i [29],  w her a on li ne   trac king   fr am ework  ba sed  on  m ulti - do m ai represe ntati on s   is  pro posed Its  arc hi te ct ur e   consi sts  of   m ulti ple  sh ared   la ye rs  that  they   r efer  as  do m ai ind e pende nt  la ye rs,   w her only   the  cl assifi cat ion   la ye is  def ined  as  the  do m a in - s pecific  on e s.  The  sh a red   la ye rs  are  train ed  us in m ul ti ple  ann otate vide seq uen ces   offl ine,  wh il cl a ssific at ion   la ye is  trai ne s epar at el base on  each   do m ai n.   Wh en   a   ne seq uen ce  or   do m ai is  giv en,   new   cl assifi c at ion   la ye will   be  co ns tr ucted   to  com pu te   the  ta rg et   sco re  base on   t he  new   i nput.  T hen,  the  f ully - co nn ect e la ye rs  within  the  sh a red  la ye rs  an t he  ne cl assifi cat io la ye r   will   be  updated  pe ri dio cal ly   so   that  it   is  ad apted  to  the  ne dom ai n.   In   [3 0],  m ulti ple   CNNs  in  TC NN   i s   m ai ntained  in  tree  structur e   to  rep rese nt  m ul ti - m od al   tar get  ap pear a nc e.  It  will   up dat the  CNN  m o dels  in   the  br a nches  wh ic has  m os si m il ar  app earance  wit the  curre n ta rg et   est i m ation .   In   [ 3,   13] gen e ral   trackin f ram e wor f or   the rm al   infr are vid e os   ha bee pr opos e d.   T her m al   i m ages  exh ibit   si m i la pro per ti es  to  night  su r ve il la nce  i m ages  wh e re  the  ta rg et   ob j ect   usual ly   con sist s   of   lo co ntr ast   inform ation   an neg li ga ble  te xt ur es I [ 3],  m ulti ple  m od el are  m ai ntained  to  re pr ese nt  the  ta rg et   ap pe aran ce  in  different  cases  su c as  f or   t he  case  of  t e m po ra ry  occl us io n.   D ur in netw ork  updat es,  pa ren node will   be  re placed  by  the  new   node   so   that  there   is  no   redu ndancy   in  the  pool  of  ta rg et   obj ect   ap pear a nce  m od el s.  In   [ 13 ] ,     Sia m ese  app ro ac is  util ized   in  w hich  pa ir  of   patc hes  are  com par ed  to  find   the  m os li kely  locat i on   of     the tar get ob j e ct  in  the c urre nt  f ram e.   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  Com En g     IS S N:  2088 - 8708       Deep - le arnin g based  sin gle objec t t ra cker f or ni gh t s ur vei ll an ce   ( Zu l aikh a K adim )   3579   3.   METHO DOL OGY   3.1.    Tr ac ker  w orkf l ow   Figure   il lustr at es  the  ove rall   workflo of  the  pro pose t rack i ng   m et h odol og y.   I the   first  f ram e,     the  tracke is  init ia li zed  us in sin gle  gro und  tr uth   boundi ng   box  that   encloses   the  obj ect P os it iv and  neg at ive   can di dates   are  t hen  gen e rated   us i ng   t he  giv e boundi ng  box P os it ive  sam ples  co rr e spo nd  to    the  patches  or  subim ages  t hat  represe nt  the  obj ect   of   interest wh il neg at ive  sa m ples  cor respond  to  sub im ages  that  belo ngs  to  t he   bac kgrou nd.   Let   n t   a nd   m t   be   the   num ber   of  posit ive  and  ne gative  tr ai nin sam ples ,   resp e ct ively Po sit ive  trai ning  dat a   are  gen e rate by  ra ndom l sh ifti ng   the  init ia bo undi ng  box  within  sm al l   distance   ( the   sh ifte patc shou l at   le ast   con sist of   80%  overla area  with  res pe ct   to    the  ori gi nal  bo unding  box a nd  neg at ive   sam ples  are   ge ne ra t ed  by  rand om l sh ifti ng  the   init ia bounding   box  su c that  they   will   hav e   m i nim a ov erla area   ( overlap   area  with   at m os 10%  with  resp ect   t the  init ial   boundi ng   box ).   A fter  gen e r at ing   al the  trai ning  sam ples,  ap pear a nce   featur es  will   be  extracte us in g     the  CNN  netw orks  to  pro du c featur vec tor  with  le ng t of   512 .   B oth   s et of   posit ive  and   ne gative  f eat ur vecto rs  a re th e n use to  train  the r est   of the  full y connect ed   la ye rs,  which   will  r esult i n t he  traine m od e l.     Durin onli ne   tracki ng,  the   process   sta rts  by  ge ne rati ng  the  possi ble  c and i date  sam ples  locat ion  pivoted  on  the   la st  know lo cat ion   of  the  obj ect .   T otal  nu m ber   of   sam pl es  extracte is   le sser  c om par ed  t trai ning  sam pl es  to  sp eed  up  the  trackin process.  T he  featur es  are  the e xtracted  an te ste us in the  trai ne netw ork.   The  net work   outp ut  are the p roba bili ti es that t he  pa tc bel ongs  t o fore groun d object an d bac kgr ound   data.  T he  locat ion of  n   highe st  foregr ound  pro balit ie sam p le will   then  be   us e to   up date  est i m at ed  locat ion  of   t he  trac ke obj ect   in   cu rrent  in pu fr am e Finall y,  the   netw ork  is  re trai ned   or  up da te pe rio dical ly   to     captu re  the  ch ang e in  obj ec t’s  app ea ra nce   as  it   m ov es  aro un the  scene under   dif fer e nt  li gh ti ng   e xp osure     and b ac kgr ound.            Figure  2. O veral l t rack in fl ow       3.2.    Ne twor architec tu re   The  n et work   a rch it ect ur c onsist of   t hr ee   convo l ution al   la ye r s   and   th ree  fu ll co nnect ed  la ye rs   (F C) The  first thr ee  co nvolu ti on al   la ye rs  weigh ts  an biases   are  ob ta ine from   VG G - [ 31] wh ic has  been  trai ned   on  Im ageN et   da ta set   [ 32 ].   V GG - M   is   an  ei ght   la ye rs   net work   w her e   the  first  fi ve   la ye rs  ar e     the  conv olu ti onal   la ye rs,   w hich  f un ct io as  featur e xtract or   a nd   the   la st  three  la ye rs  ar the  den se  FC   la ye rs.   The  or igi nal  i nput  siz of  V GG - is   22 4x22 4.   Howe ve r,   the  pro pose net wor use only   the  firs three  conv olu ti onal   la ye rs  with  i nput  siz of  75x75.  T hu s al trai ning  a nd  t est ing   sam ples  are  resized   to   m a tc   the   co rr e spo nding   i nput  siz e.   The full  netw ork  arc hitec ture use in  this  work is il lustrate d i Fi gure  3.   T he  fi rst  C NN  la ye r   co ns ist s   of   96  filt ers  of  7x7  ke rn el .   The  st ride  ste is  in   x   a nd  y   directi ons fo ll owe by  R eLU  act ivati on   functi on loca response  no r m al iz a ti on   an 3x3  m ax i m um   po olin g   t pro duce  featur e   m aps  of  siz e   1 7x17 x9 6.   T he   sec ond  conv olu ti on  la ye r   co ns ist of   256  diff e ren filt ers  of  kerne siz e   5x5 ,   w hich   is  then  f ollow e by   Re LU   act iv at ion   functi on ,   local   re spo ns e   norm al iz ation  an 3x3  m ax i m u m   poolin g   to   pro du ce   3x 3x256  featur e   m aps.   Finall y,  the  thi rd   la ye r   co ns is ts  of   51 filt er of  kernel  siz e   3x3 wh ic h wil l pro du ce   feat ur e m aps   of 1x 1x51 2   Both  posit ive  and   neg at ive  extracte f eat ure  vecto rs  are   then  us e to  trai the  three   FC  la ye rs.     Final  ou t pu f r om   the  la st  so ftm ax  l ay er  are  the  two  pro ba bili ti es   that  rep rese nt  the  li kelihoo of  the  in pu i m age  patch  belo ng s   to  th tracke ob je ct   and   the  li kelihoo that  the  input  im a ge  patc bel ongs  to     the  bac kgr ound.  I niti al ly a ll   FC  pa ram e te rs   are   ra nd om l init ia l ized I this   w ork,  three   dif fer e nt   op ti m iz a ti on   a lgorit hm are  exp e rim ented  to  trai t he   F la ye rs:  Gr a dient  Descen t   [33] Ad am   [ 34 ]   an Ad a gr ad  [35 ]   with  four d i ff e ren t l ear ning  ra te s: 0.001 25, 0. 001, 0.0 0075 a nd 0.00 05.    Evaluation Warning : The document was created with Spire.PDF for Python.
                          ISSN :   2088 - 8708   In t J  Elec  &  Com En g,   V ol.  10 , No 4 A ugus t   2020   :   3576   -   3587   3580       Figure  3. Net w ork  a rch it ect ur e of the  prop ose trac king al gorithm       3.3.    Net w ork  le ar ning par ame t ers   I t his  w ork only   the  la st  thr ee  FC  la ye rs  will   underg r et rainin s th at   the  netw ork   is  ada pted  t   the  changes  in  the  obj ect   appearance In   the   first  fr am e,  th weigh ts  of  th ese  la ye rs  are  ran dom ly  init ial iz ed,  wh il the   bias es  are  fixe to   0.0 5.   Lea r ning  par am et er  va lues  f or  posit ive  sam ples,  ne gative  sam ples,  init ia le arn in rate  a nd   num ber   of  epo c a re  set   to  50 0,   1000,  0.0 005  a nd   150  resp ect ively C ro s entr opy  ( 1)  loss  functi on  is  use to  trai th netw ork,   w he re  p   is  t he  tr ue  la bel,  q   is  the  predict ed  pro bab il it and   x   is     the  num ber   of   outp ut  cl ass.   Since  the   ne twork  outp uts   are  set   of  two  pro ba bili ti es;   pr oba bili t that    the  sam ple  is  f or e gro und  a nd  bac kgr ound,  t hus  x   val ue   is  tw w he re  the   s umm a ti on   of  each   sam ple   pro bab il it ie is  eq ual  to  1.  Now,  le the  true  la bel  be   = 0 =   an d   = 1 = 1 and  th pr e dicte pro bab il it be  = 0 = ̂   an d   = 1 = ( 1 ̂ ) T he  l os s   f un ct io is   the c om pu te by   ta king  t he  a ve rag e   cr os entr op of all   N   input  sam ples (3) .   Cros s  en t ropy,     ( , ) = log   (1)     ( , ) = log ̂ ( 1 ) log   ( 1 ̂ )   (2)     Loss f un ct io n,      ( ) = 1 ( , ) =   = 1 1 [ log ̂ + ( 1 ) log ( 1 ̂ ) ] = 1   (3)     Durin on li ne   le arn in g,   num ber   of  trai ning  e po c h   is  reduce to  75,  w hile  the  ot her   t wo  par am et ers;   le arn in rate  a nd   nu m ber   of  posit ive  and   ne gative  sam ples   var ie acco rd i ng   to  t he  best  s et up T hr ee  dif fer e nt  op ti m iz ers;  sto chasti gr a dien descen t,  A da gr a an A da m   (ad aptive  m om ent  est i m ati on)  are  com p ared   t fin the  opti m a l values  of the   m od el  p aram eter (w ei gh ts a nd  biases)  b y m i nim iz ing  the l oss f unct ion.     3.3.1.  Op timi zer # 1: Stoch astic  g r ad ie n d escent  (SGD )   Gr a dient  de sce nt  [33]  is  popu la optim iz a ti on   te ch nique   and   it   has  bee wi dely   us ed  in  n et w ork  le arn in [ 28,  29,  36] At  ti m ste t,  gr ad ie nt  descen al gorithm   co m pu te the  gr a die nt  of   los f un ct ion   with   resp ect   to  the  m od el   par am e t ers,   w he re  the  resu lt ant  val ue   is  us ed  to  upda te   the  networ k.   G ra dient  is  vector  of   par ti al   der i vative  of  t he  l os f unct ion   with  res pect  to  eve ry  weig ht   and   bias  for   the  trai ning  s a m ples   The n,   eac of  the  wei gh a nd  bias  a re  update by  sub tract ing   pr e vious  value  with   the  m ulti plication  of    the  le arn i ng   ra te   with  the  cal culat ed  gra dient  (5),   (6).   T he   process  w il be  rep eat e unti the  loss  f un ct ion   i s   m ini m iz ed  (conv e r ge)   or   t he  m axi m u m   nu m ber   of   e po c is  reache d.   O ne  it erati on   of  gr a dient  des cent  on   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  Com En g     IS S N:  2088 - 8708       Deep - le arnin g based  sin gle objec t t ra cker f or ni gh t s ur vei ll an ce   ( Zu l aikh a K adim )   3581   on e   pa ram et er  is  su m m arized  as  f ollows.  Gradient  of  loss   f un ct io with  re sp ect   to   pa ram et er  f or  tim ste t   is cal culat ed  as :     , = 1  , , = 1   (4)     w he re  is  the  nu m ber   of  trai ning  sam ple s.Th e the  we igh an bias  of   par am et er  i   fo ti m s te t   is   cal culat ed  as i n gr a dient ste p belo w:     , = , 1 ,   (5)     , = , 1 ,   (6)     wh e re    is t he  le arn i ng r at e.  N ot e that t he  sam e lea rn i ng r at is ap plied to  all  p a ram et ers  updates.   On gr a dient  de scent  operati on  co ns ist of  one  it eratat ion   over  al trai ning   sa m ples.  This  is  diff e ren t   from   stochastic   gr a dient  des cent,  w he reb instea of   ta kin t he  whole  trai ning  sam ples,  it   rand om l sel ect   few   trai ni ng   sam ples  in  each  it erati on   to  optim iz the  m od el   par am et ers.   This  m akes  SG c om pu ta tio nally   eff ect ive  a nd  m akes  it   popu l ar  f or   onli ne  ne twork  trai ning.  Nev e rthel es s,  since  SGD  use only   few  trai ning  sam ples, th e p a th to  c onve r ge nce  will  b no i sy.      3.3.2.  Op timi zer # 2: Adam  (ad aptive m om ent  es tima tio n )   Ad am   [34]  op t i m iz er  sta nd f or   a da ptive  m ome nt  est i m a ti on It  com pu te diff e re nt  le arn i ng   rate  f or  diff e re nt  pa ra m et ers  by  usi ng  the  e stim ates  of  first  a nd  seco nd  order  m o m ents  of  gradie nt.  T he  first  a nd   seco nd   order   m o m ents  are  the  m ov ing   a ve rag a nd   unc entere m ov ing   va riance  as  show in  ( 4 )   and   ( 5 ) .   It  introdu ce three  m or hype rp a ram et ers  c om par ed  to  gr adient  s te in  SGD,  w hich  a r β 1 β 2   and   ε;   wh ic corres pond  to   expo nen ti al   de cay   rate  fo first  orde m ome nt,  expo nent ia lly  decay  rate  fo sec ond  order  m o m ent  and   ve ry  sm a ll   con sta nt  to  pr e ve nt  the  case  zero   div isi on,  resp e ct ively 1 st   ord er  m o m ent  ( m ov i ng   aver a g e)  of  para m et er  i   for  ti m e step  t     , = 1 , 1 + ( 1 1 ) ,   (7)     2 nd   or der  m ome nt (u ncen te re d varia nce)   of  par am et er  i   for  tim e step  t     , = 2 , 1 + ( 1 2 ) , 2   (8)     Estim ation   of  these   m o m ent will   be   bia s - co rr ect e be fore  t hey  are   us e to   updat the  m od el   par am et ers.   Th is  ste is  i m po rtant  to  ens ure   that  the  first  and   sec ond  ord er  m o m ents  are  no biase to wards   zero  as   the   ini ti al   values   of  0   and  0   are   set   t zer o.  Bi as - c orrecte fi rst   an seco nd  orde r   m o m ents  are  cal culat ed  as  be low. Bi as - c orrecte d 1 st   order m o m ent o f par a m et er  i   for  ti m e step  t ,     ̂ , = , ( 1 1 )   (9)     Bi as - correct ed   2 nd   or der  m ome nt of  par am eter   i   f or ti m e ste t ,     ̂ , = , ( 1 2 )   (10)     Af te est im at i ng   t he  m o m ents,  m od el   pa ra m et er  is  up dat ed  as  in  ( 8 ) No te   that  the  le arn in rate    is  now   m ulti pli ed  by  the   rati of  fir st  an sec ond  orde m ome nts  of  the   gradients.   η  is   th le arn i ng  rate   and    is a ve ry sm al nu m be t o pr e ve nt d i visio n by zer o.   U pd at e d weig ht and  bia ses of  par am eter   i   f or ti m e ste t ,     , = , 1 , ̂ , ̂ +   (11)     , = , 1 , ̂ , ̂ +   (12)     Since it s f irst i ntr oductio in 2 0 15, Adam  o pti m iz er h as b e en  wide ly  u sed  in  netw ork  le arn i ng   [37].  It has fast   conve rg e nce  ra te  an d t hus  pr a ct ic al  f or  t raini ng a lar ge  m odel  w it la r ge  tr ai nin g sam ples.     Evaluation Warning : The document was created with Spire.PDF for Python.
                          ISSN :   2088 - 8708   In t J  Elec  &  Com En g,   V ol.  10 , No 4 A ugus t   2020   :   3576   -   3587   3582   3.3.3.  Op timi zer # 3: Ada gr ad   Ad a G rad   [ 35 ]   op ti m iz er  is  gr a dient - base le arn in al go r it h m bu it   co m pu te diff e re nt  le arn i ng  rates  f or  diff e r ent  pa ram et ers.   A da Gr a pe r form s m al   update  on   the  pa ram et ers  that  are  ass ociat ed   with  fr e qu e ntly   occ urrin feat ur es w hile  it   perform big   up da te   on  the  pa ram et ers  that  are  ass ociat ed   with   infr e qu ent  occ urrin feat ur es .   This  is  ac hiv e by  A daGrad  thr ough  m od ify ing   the  ge neral   le arn in rate   in  ( 5),  base d on the  pa st gr a dient  of  the p a ram et er  i.   T he gra dient  ste in  Ada Gr a d becom es:     , = , 1 , + ,   (13)     wh e re   ,   is t he  a ccum ulate sum  o the squa r es of the  previ ous gra dient  w it res pect to t he param et er  i   up to   tim e step  t.      , = , 2 = 1   (14)     No te   t hat  sinc the  gr a dient   values   are   al posit ive,  the   a ccum ulate sum   ,   w il kee i ncr easi ng  durin the  trai ning  process  wh ic will   cause  the  le arn i ng   rate  in  ( 13 )   to  sh ri nk   a nd  eve ntu al ly   beco m e   infin it esi m a ll sm a ll At  this  po i nt,  the  optim iz er  is  no able  to  le ar a ny   new   knowle dg e De sp it of  this   weakness , Ada Gr a sti ll   perf orm s b et te com par e to  the  S GD as the  lear ning r at e is  not  m anu al ly  f ine - tun e d.   Ad a G rad   has  been   us e at   Goo gle  [ 38 ]   to   trai la r ge  ne ur al   netw orks  to  rec ognize  c at in  youT ube   vid e os.     It  is  al so   us e in  [39]  to  trai Gl oV w ord   e m bed di ngs,  as  infr e que nt  wor ds   re quire  m uch   la rg er  updates  com par ed  t th e fr e quent  ones     3.3.4.  Le arnin r at e   Choosin le arn i ng   rate  ca be   di ff ic ult  ta sk to sm al le arn ing   rate  le ads   to  slo w   conve rg e nce,  wh il t oo  la r ge  le ar ning  rate  can  hinder   c onve rg e nce  a n ca us es  l os f un ct io t fl uc tuate   or  even   ca us tra ining   div e r gence.  I this  w ork le arn i ng   ra te of   0.001 25,  0.0 01,  0.0 00 75   a nd  0.0 005  ar e   exp e rim ented  to  fin a n op ti m al  setup.     3.4.    Obj ec loc ati on estim at i on   Give an  in put  fr am du ri ng   onli ne  trac ki ng,  the  syst e m   will   esti m at the  obj ect   locat ion   by   analy zi ng   the  ou t pu pro ba bili ti es   fr om   the  netw ork.   T he  netw ork  outp uts  two  pro bab il it ie s;  (1 prob a bili ti es   that  the  input  sa m ple  belongs   to  the  foregr ound  ob j ect   an (2 pro bab il it ie that  the  input  sa m ple  belon gs  to  the  backg rou nd.  T he  final  ob j ect ’s  locat io is  est i m at ed  by  co m pu ti ng   t he  weig hted  a ver a ge  of  the  top   five   sam ples w it the  highest f ore gro und pro bab i li ti es w her e by  the w ei gh t i s  base d o their  proba bili ty  v al ues.       4.   RES ULTS  A ND  D IS CUSS ION   F or  validat ion  pur po se 14  nig ht  scene   vi de os   of  siz 352x28 has  bee colle ct ed.  I each  vid e o,    the  tracke ob je ct   siz is  abo ut   30x70  pi xels  and   t he  total   num ber   of   acc um ula te fr am e of   al vid e is  3646.   The  c hosen   vi deos  co ntain  t he  c halle ng e   of   va rio us   li ghti ng  co ndit ion occlusi on  a nd  m ov e - sto p - m ov pro blem Sn ap shot  of  the  t hree  cam era  views  of   t he  vid eo are  sho w in  Fig ur 4.  The  gro undtr uth   is   gen e rated  m anu al ly  b y d ra wing the  obj ect   boun ding  box  i n ea ch fram e b y an e xpert i c om pu te r visi on.             (a)   (b)   (c)         Figure  4. Th re e cam era v ie w s for f ourteen  test ing   vid e os   ( a) Cm 01 , (b C a m 02 , (c)  Cam 03     Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  Com En g     IS S N:  2088 - 8708       Deep - le arnin g based  sin gle objec t t ra cker f or ni gh t s ur vei ll an ce   ( Zu l aikh a K adim )   3583   4.1.    Implem ent ati on   det ails   The  trac king  c od e   is  im ple m e nted  i Pyt hon wit te nso rf lo li br a ry. O ri gi nal  locat ion  of   the  trac ked  obj ect   is  gi ven  in  the  fo rm   of   bounding  box  ([ x 0 ,   y 0 ,   wi dth 0 ,   heig ht 0 ] ).   In   the  first  fr am e,  hype rp a ram et e rs  f or   le arn in rate,  nu m ber   of  e poch,   num ber   of  posit ive  sam ple  an num ber   of  ne gative  sa m ple  are  init ializ ed  to   0.000 5,   150,  500  an 1000  re sp ect ively Sa m ples  extracte f r om   first  fr a m is  the  m os i m po rtant  ste as  it   is   the  only   kn own  gro undtr uth   by  the  t rack e r Fig ure  s hows  e xam ples  of  posit ive  a nd  neg at ive   sa m ples  extracte in  t he  first  f ram e   of   th ree  dif f eren te st  seq uen ce s.  The n,  the  tracker  will   be  upd at ed  onli ne  per i od ic al ly  throug h weak  s uperv isi on a s the   conseq ue nt fra m es g r oundtr uth   data is  no kn own.                    Figure  5. Exa m ples o posit ive a nd n e gativ e sam ples that has bee e xtra ct ed  f ro m  the c urren fr am   (f irst  20 sam ples),   w hich  a re  repres e nted by  blu e a nd  red b ox e s, res pecti ve ly       4.2.   Perf orm ance  metric   To  e valuate  t he   pe rfor m ance  of  our  night  tracker   al gorit hm we  use   one  of  the  V O eval uation  m et rics,  wh ic is  accuracy  (A c as  de fine in  ( 4 ) Acc uracy   m easur es  how  well   the  tracke bo undi ng   bo relat ive  to  gro und  tr uth   bo by  com pu ti ng   the  intersect io over  un i on   ( IoU)   a rea.  higher  ov e rlap   area  represe nts  be tt er  trackin accuracy.  The   tracke is  no t   re - i niti al iz ed  in  the  e ven of  trac fail ure  (where     the Io is ze ro).     Accuracy  = 1 ,   ,  ,   ,  = 1   (4)     wh e re     de no te s   the   num ber   of f ram es  in  t he  t est   vi deo, whil ,     and   ,    are  t he  boundi ng b ox es   of  obj ect  in  fram e   i   from   the  trac ke r  outp ut a nd  gro und  tr uth ,   r especti vely   Table  s hows   the  accuracy  com par ison   be tween  the  th re op ti m iz er  alg ori thm s:  SG D,   A dam   and  Ad a grad For  a   fair  com par iso n,   le ar ning  rate num ber   of   po sit ive  sa m ple  and   num ber   of   neg at ive  sam ple  are  fixe to  0.0 01,   50   a nd   100,  r especti vely D efau lt   value f or   Ad am ’s  hy perparam et ers  β 1,  β 2   an ε  ar set   to   0.9,  0.999  a nd  1e - 08 res pecti vely In   a ve ra ge,   Ad am   op ti m iz er  pr od uce the  best  acc ur acy   as  c om par ed  to     the  ot her   tw op ti m iz ers,   fo l lowe by  A da Gr a d.   A dagra pe r f or m signi ficantl bette in  Ca m 01 - vi de o08  com par ed  to  the  oth e two  optim iz ers.   Wh i le it   is  no te that  SG perf or m the  wo rs in  m os of   the  te st   vid e os .   T his  ind ic at es  t hat  t he  perform ance  of  a dap ti ve   l earn i ng  rate  m et hod  is  bette r   com par ed   to   fixe d   value.   As  t he  num ber   of   it erat ion for  eac tr ai nin is  set   to  m ini m u m SG m ay   no be  able  to  co nver ge  a nd   con t rib utes  to  it bad  p er f or m ance.  S om sam ples  of   fr am e   with  overlai tracki ng  outp ut  for  Ca m 01 - vi de o08,   Cam 02 vid e o0 an Ca m 0 3 - vid e o02  are   sh ow in  F igure  6.   Gr e en,   bl ue  an m agen ta   bounding   boxesc orres pond   t the  outp ut  of  S GD,  A dam   and   A da Gr a op ti m iz e rs,   resp ect ivel y.  In   Fig ur 6,  the  firs t   row  im ages  co rr es pond  t Ca m 01 - vid e o08,  i wh ic A daGrad  opti m iz er  giv es   the  highe st  accuracy.   I ni ti al l y   al three  op ti m iz ers  pr oduce  good  resu lt a s   sho wn  in  fr a m #2 ,   the e ven t ually   SGD   optim iz er  m od el   ha s   dr ifte to   m ix  with  the   bac kg rou nd   (fram #27)  f ollo wed  by  A dam   op ti m iz er  (f ram #71).  The   seco nd  r ow   shows  the  im a ges  f or   Ca m 02 - vi deo0 seq ue nces,  i wh ic A dam   giv es  the  best  accu r acy   wh il the  oth e rs  giv al m os 0 accuracy  (the  boun ding  boxes  are  stu cked   at   the  ba ckgr ound  are as  it  con ta in  m or e     te xtu res   com par ed   to  t hetracke obj ect ) T he   thir r ow  im a ges  c orres pond   to  the   outp ut  f or  Ca m 03 - vi de o0 2,  in  w hich   al three   opti m iz ers  pro duce  poor  acc ur acy   res ults.  T his  m igh be   ca us ed   by   si m iliarit between    the fore gro und ap pear a nce a nd the  b ac kgr ou nd.    Table  s how the  accuracy   com par ison   be tween  f our  di ff ere nt  values   of   le ar ning  r at e.  In   this  exp e ri m ent,  Ad am   op tim iz er   has  been   c ho sen  as  the   bas is  op ti m iz er,  wh il the  nu m ber   of   posit iv an neg at ive  sam ples  are  set   to  50   a nd  100,  r especti vely I aver a ge,   le ar ning  rate  of  0. 00075  giv es  t he  best   accuracy  perf orm ance  com par ed   to  t he  oth e r s,  f ollo wed  by   0.000 le ar ning  rate.  T he  res ults  al so  in dicat that  an  inc rease i l earn i ng r at va lue, the  av e ra ge  tracke acc uracy  w il l be low er.    Evaluation Warning : The document was created with Spire.PDF for Python.
                          ISSN :   2088 - 8708   In t J  Elec  &  Com En g,   V ol.  10 , No 4 A ugus t   2020   :   3576   -   3587   3584   Table  sho ws   the  accu racy  com par ison  be tween  fou dif fer e nt  com bina ti on of   t otal  nu m ber   of  posit ive  and   ne gative  trai ni ng  sam ples   us ed  durin onli ne   update A da m   op tim iz er  with   le arn in rate  of   0.000 75   will   be   the  basic  set up  f or   t he  trai ni ng   sam ples  com par ison I a ver a ge,   c om bin at ion   of   50  a nd   100  for  posit ive  a nd  ne gative   trai ing  sam ple s ,   re sp ec ti vely   retu rns  the   best   acc ur acy   com par ed   to   oth e r   com bin at ion s.  Total   num ber   of   ne gative  sa m ples  are  twic of   t he  posit ive  sam ples,  suc that  it   cat er f or  la rg er  b ac kgr ound a rea c om par ed  to  c oncent rated  fore ground sam ples.       Table  1.   Acc uracy  co m par iso n betwee th re e optim iz er   al go rithm s: SGD,  Ad am  an d A da gr a d, with  onli ne  le arn in g param et ers; lea rn i ng  rate,  nu m ber   of posit ive a nd negati ve  sam ples are fixe t o 0 .001,    50 and  100 res pecti vely   No .   Datasets   Nu m b er  o f  f ra m es   Accurac y   Lear n in g  r ate = 0.0 0 1   #  po sitiv e sa m p les =5 0   #  neg ativ e sa m p les =1 0 0   Op ti m ize r:  Ad a m   Op ti m ize r:  SG D   Op ti m ize r:  Ad ag ra d   1   Ca m 0 1     v id eo 0 1   146   8 5 .02   1 5 .71   6 9 .81   2   Ca m 0 1     v id eo 0 2   184   6 4 .82   4 4 .92   4 5 .81   3   Ca m 0 1     v id eo 0 3   71   9 6 .89   0 .44   5 7 .35   4   Ca m 0 1     v id eo 0 4   22   9 1 .46   1 4 .85   7 4 .28   5   Ca m 0 1     v id eo 0 5   34   8 9 .51   7 3 .42   2 5 .17   6   Ca m 0 1     v id eo 0 6   150   8 8 .96   7 4 .95   8 1 .64   7   Ca m 0 1     v id eo 0 7   86   5 5 .79   6 .88   2 0 .96   8   Ca m 0 1     v id eo 0 8   125   5 9 .26   2 1 .53   9 4 .89   9   Ca m 0 2     v id eo 0 1     257   6 7 .56   0 .86   3 5 .71   10   Ca m 0 2     v id eo 0 2   1083   6 2 .27   0   3 .8   11   Ca m 0 3     v id eo 0 1   344   9 5 .83   8 9 .66   7 9 .9 3   12   Ca m 0 3     v id eo 0 2   227   1 3 .58   1 2 .15   2 .97   13   Ca m 0 3     v id eo 0 3   317   6 2 .96   5 5 .78   7 4 .03   14   Ca m 0 3     v id eo 0 4   600   3 6 .97   4 8 .32   4 5 .54   Av erag e accura cy     6 9 .35   3 2 .82   5 0 .85             fr am e # 2   fr am e # 27   fr am e # 71         fr am e # 3   fr am e # 105   fr am e # 246         fr am #2   fr am e # 100   fr am e # 154         Figure  6. Sam ple o f  fram es w it ove rlai trac king  ou t pu f or ( a)  Cam 01 - vi de o08, ( b) Cam 03 - vid e o02    and (c Ca m 02 - vi deo0 2.  B oxes col or gr ee n (S GD), blue  (Ad am an m agen ta   ( Ad a Gr a d)   Evaluation Warning : The document was created with Spire.PDF for Python.
In t J  Elec  &  Com En g     IS S N:  2088 - 8708       Deep - le arnin g based  sin gle objec t t ra cker f or ni gh t s ur vei ll an ce   ( Zu l aikh a K adim )   3585   Table  2.   Acc uracy  co m par iso n betwee n four o nline lear ning  rates:  0 . 0012 5,   0.0 01, 0. 00075 an d 0.0 005,    with  on li ne  learni ng p a ram et e rs; opti m er algo rithm , num ber   of   posit ive a nd    neg at ive  sam ples f ixe t o Ad a m , 5 an d 1 00  resp ect ively   No .   Datasets   Nu m b er  o f   f ra m es   Accurac y   Op ti m ize r:  Ad a m   #  po sitiv e   sa m p les =5 0   #  neg ativ e sa m p les =1 0 0   Lear n in g  r ate 0 .00 1 2 5   Lear n in g  r ate 0 .00 1   Lear n in g  r ate 0 .00 0 7 5   Lear n in g  r ate 0 .00 0 5   1   Ca m 0 1     v id eo 0 1   270   6 8 .23   8 5 .02   7 8 .91   8 3 .28   2   Ca m 0 1     v id eo 0 2   448   6 2 .82   6 4 .82   6 5 .59   7 0 .56   3   Ca m 0 1     v id eo 0 3   71   9 8 .23   9 6 .89   8 9 .20   9 4 .10   4   Ca m 0 1     v id eo 0 4   128   8 7 .66   9 1 .46   9 4 .06   8 8 .76   5   Ca m 0 1     v id eo 0 5   34   8 9 .24   8 9 .51   7 6 .20   8 9 .02   6   Ca m 0 1     v id eo 0 6   224   9 5 .19   8 8 .96   9 3 .76   9 7 .77   7   Ca m 0 1     v id eo 0 7   460   4 8 .22   5 5 .79   5 9 .81   5 4 .06   8   Ca m 0 1     v id eo 0 8   125   2 7 .53   5 9 .26   9 1 .29   9 5 .54   9   Ca m 0 2     v id eo 0 1   1137   4 5 .26   6 7 .56   7 6 .11   6 0 .43   10   Ca m 0 2     v id eo 0 2   1083   6 6 .10   6 2 .27   8 8 .16   7 6 .16   11   Ca m 0 3     v id eo 0 1   344   8 8 .21   9 5 .83   9 1 .63   8 0 .73   12   Ca m 0 3     v id eo 0 2   700   1 1 .76   1 3 .58   7 .18   3 5 .29   13   Ca m 0 3     v id eo 0 3   317   6 4 .93   6 2 .96   6 4 .32   7 6 .41   14   Ca m 0 3     v id eo 0 4   689   36 .28   3 6 .97   4 3 .04   1 6 .91   Av erage accu rac y   6 3 .55   6 9 .35   7 2 .80   7 2 .79       Table  3.   Acc uracy  co m par iso n betwee n four dif fer e nt c ombinati on  of pos it ive an d ne gat ive sam ples ( 50, 100),  (50,5 0) ,  (1 00,100) a nd (1 50,150),  w it h o nlin e lea rn i ng p a ra m et ers; o ptim i zer alg or it hm  an   le arn in g rate  is  f ixe as  Adam  and  0.000 75 re sp ect ively   No .   Datasets   Nu m b er  o f  f ra m es   Accuracy   Op ti m ize r:  Ad a m   Lear n in g  r ate =0 .00 0 7 5   n = 10 0   p = 50   n = 50   p = 50   n = 10 0   p = 10 0   n = 15 0   p = 15 0   1   Ca m 0 1     v id eo 0 1   270   7 8 .91   1 2 .84   7 4 .49   8 3 .84   2   Ca m 0 1     v id eo 0 2   448   6 5 .59   5 5 .00   5 4 .78   5 4 .58   3   Ca m 0 1     v id eo 0 3   71   8 9 .20   9 6 .19   9 3 .97   9 6 .40   4   Ca m 0 1     v id eo 0 4   128   9 4 .06   9 1 .05   9 5 .27   9 2 .85   5   Ca m 0 1     v id eo 0 5   34   7 6 .20   7 7 .65   9 2 .40   7 5 .07   6   Ca m 0 1     v id eo 0 6   224   9 3 .76   9 2 .22   9 2 .99   9 7 .57   7   Ca m 0 1     v id eo 0 7   460   5 9 .81   64. 52   4 9 .81   1 0 .37   8   Ca m 0 1     v id eo 0 8   125   9 1 .29   9 1 .01   9 0 .41   3 4 .12   9   Ca m 0 2     v id eo 0 1   1137   7 6 .11   6 5 .09   6 .43   5 .27   10   Ca m 0 2     v id eo 0 2   1083   8 8 .16   7 3 .88   5 5 .29   8 0 .56   11   Ca m 0 3     v id eo 0 1   344   9 1 .63   9 3 .92   8 5 .35   9 3 .74   12   Ca m 0 3     v id eo 0 2   700   7 .18   1 1 .99   1 0 .82   1 0 .24   13   Ca m 0 3     v id eo 0 3   317   6 4 .32   6 7 .63   6 9 .17   7 5 .61   14   Ca m 0 3     v id eo 0 4   689   4 3 .04   3 4 .35   1 4 .22   4 3 .14   Av erage accu rac y   7 2 .80   6 6 .24   6 3 .24   6 0 .95       5.   CONCL US I O N   In   c on cl us io n,   the   pro posed   trackin sc hem is  able  t track  obj ect   of   inte rest  in  the  night   su r veill ance  vi deo s Ad am   op ti m iz er  sh ows  s uperi or  a ccur acy   pe rform ance  as  c om par ed  to   S GD  a nd  Ad a G rad   in  m os of   the  te sti ng   vid e os The   best  le arn ing   rate  is  fo und  to  be  0.0 0075  that  are  achiev ed  by   us in sam ple  trai ning  rati of   2:1  bet wee neg at ive  a nd  po sit ive  sa m pl es.  Hen ce,   this  tracke can  be   i m ple m ented  in the  h i gh e le vel appli cat ion o f nig ht sur veill ance syst e m       ACKN OWLE DGE MENTS   This  w ork  was   su pport ed  by  t he  N vid ia   Corporat io thr ough   the  Tit an  V   Gr ant  (KK - 2019 - 005)   a nd   Mi nistry of E ducat ion t hro ug FR GS / 1/ 2019/ICT 02 / UK M /02 /1 .       REFERE NCE S     [1]   K.  Huang,   L.   W ang,   and  T .   T an,  Dete ct ing  and  tra cki ng  d ista nt  obje ct a night   base on  hum an  visual   s y stem,   Asian  Confe r ence  on  Comput er  V ision ,   pp .   822 8 31,   2006 .   Evaluation Warning : The document was created with Spire.PDF for Python.