I AE I nte rna t io na l J o urna l o f   Ro bo t ics a nd   Aut o m a t io n ( I J RA)   Vo l.  1 0 ,   No .   2 J u n e   2 0 2 1 ,   p p .   1 3 3 ~1 4 3   I SS N:  2722 - 2586 DOI : 1 0 . 1 1 5 9 1 / i j r a . v 1 0 i 2 . p p 1 3 3 - 143     133       J o ur na l ho m ep a g e h ttp : //ij r a . ia esco r e. co m   Dete c ting A frican  hoo fed  a ni m a ls   i n aeria l i m a g ery  using   co nv o lutiona l neural netw o rk       Yunfe i F a ng 1 ,   Sh eng zhi D u 2 ,   L a rbi B o ub chir 3 ,   K a ri m   Dj o ua ni 4   1, 2, 4 De p a rtm e n o f   El e c tri c a En g in e e rin g ,   T sh w a n e   Un iv e rsit y   o f   Tec h n o l o g y ,   S o u th   A f rica   3 L I A S D,  Un iv e rsit y   o f   P a ris  8 ,   F r a n c e       Art icle  I nfo     AB ST RAC T     A r ticle  his to r y:   R ec eiv ed   Au g   31 ,   2 0 2 0   R ev i s ed   Dec   1 ,   2 0 2 0   A cc ep ted   Feb   1 2 ,   2 0 2 1       S m a ll   u n m a n n e d   a e rial  v e h icle s   a p p li c a ti o n h a d   e ru p ted   i n   m a n y   f ield in c lu d in g   c o n se rv a ti o n   m a n a g e m e n t.   A u to m a ti c   o b jec d e t e c ti o n   m e th o d f o su c h   a e rial  ima g e r y   w e r e   in   h ig h   d e m a n d   to   f a c il it a te  m o re   e fficie n a n d   e c o n o m ica w il d li f e   m a n a g e m e n t   a n d   re se a rc h .   T h is  p a p e a i m e d   to   d e tec h o o f e d   a n im a ls  in   a e rial  i m a g e t a k e n   f ro m   a   q u a d - ro to i n   S o u th e rn   Af rica .   Ob jec ts  c a p tu re d   in   th is  w a y   w e r e   s m a ll   b o th   i n   a b so l u te  p ix e ls  a n d   f ro m   a n   o b jec t - to - im a g e   ra ti o   p o in o f   v iew ,   w h ich   we re   n o p e rf e c tl y   su it   fo g e n e ra l   p u r p o se d   o b jec d e tec to rs.  W e   p ro p o se d   a   m e th o d   b a se d   o n   t h e   ico n ic  F a ste r   re g io n - b a se d   c o n v o l u ti o n a n e u ra n e tw o rk s   ( R - CNN )   f r a m e w o rk   w it h   a tro u s   c o n v o lu ti o n   lay e rs  in   o rd e to   re t a in   th e   sp a ti a re so lu ti o n   o f   th e   fe a tu re   m a p   to   d e tec sm a ll   o b jec ts.   A   g o o d   c h o ice   o f   a n c h o rs  w a o f   p rim e   i m p o rtan c e   i n   d e tec ti n g   sm a ll   o b jec ts.   T h e   p e rf o rm a n c e   o f   th e   p ro p o se d   F a ste R - CN N w it h   a tro u c o n v o l u ti o n a f il ters   in   th e   b a c k b o n e   n e tw o rk   wa p ro v e n   to   b e   o u tstan d in g   in   o u sc e n a rio   b y   c o m p a rin g   to   o th e o b jec t   d e tec ti o n   a rc h it e c tu re s.   K ey w o r d s :   An c h o r   d esig n   An i m al  d etec tio n   A tr o u s   co n v o lu t io n   Fas ter   R - C NN   S m all  o b j ec t d etec tio n     T h is  is  a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Yu n f ei  Fan g   Dep ar t m en t o f   E lectr ical  E n g i n ee r in g   T s h w a n U n iv er s it y   o f   T ec h n o lo g y   Staats ar till er ie  R o a d ,   P r eto r ia  w e s t,  P r eto r ia,   0 0 0 1 ,   So u th   Af r ica   E m ail:  f an g y u n f ei0 8 @ 1 6 3 . co m       1.   I NT RO D UCT I O N   Un m an n ed   ae r ial  v eh ic les  ( U A V s )   as  co n v e n ie n a n d   ea s y - to - g et  d ata  ac q u is i tio n   to o h as  b ee n   ap p lied   in   m an y   w ild li f co n s er v atio n   a n d   r esear ch   tas k s .   Au to m a tic  a n al y s i s   o f   s u c h   a er ial  i m a g er y   is   o f   s ig n i f ica n t i m p o r ta n ce   as  s u c h   d ata  a m o u n ts   d r a m atica ll y .   O b j ec t d etec tio n   f o r m s   t h b asi s   o f   m a n y   co m p u ter   v is io n   ap p licatio n s .   W o r k   h as   b ee n   d o n in   d etec ti n g   ter r es tr ial   [ 1 ] m ar i n e   [ 2 ] ,   an d   ce lest ial   [ 3 ,   4 ]   s p ec ies  f r o m   ae r ial  i m ag er y   in   d i f f er e n en v ir o n m e n ts .   Af r ica  h o ld s   v ar iet y   o f   u n iq u h o o f ed   w il d lif s p ec ies,  an d   a   n u m b er   o f   th e m   ar u n d e r   th r ea t,  s o m at  cr itical  r is k   o f   ex ti n ctio n .   U A V s   co m b in ed   w i th   co m p u ter   v is io n   tech n iq u es c a n   as s is t c o n s er v a tio n   w o r k er s   an d   r esear c h er s   t o   g r ea t e x ten t.   C o m p u ter   v is io n   ap p licatio n s   d if f er   f r o m   ca s to   ca s d ep en d in g   o n   th s ce n ar io   an d   u n iq u e   ch ar ac ter is tic s   o f   t h p r o v id ed   d ataset C h al len g es  o f   o b j ec d etec tio n   i n   ae r ial  i m ag er y   w er s u m m ar is ed   i n   [ 5 ] ,   s u ch   as  s m all  o b j ec s ize,   lar g s ca le  v ar iatio n s ,   cr o w d ed   in s ta n ce s   a n d   v ar io u s   o r ie n tatio n s .   I n   a m o n g   w h ic h   th m o s ch alle n g i n g   i s   th s ize  an d   s ca le  p r o b le m .   T h UA h as  to   o p er ate  at  ce r ta in   altitu d in   o r d er   to   p r o v id b ig   f ield   o f   v ie w ,   av o id   d is t u r b in g   t h tar g eted   an d   o th er   lo ca s p ec ies.  T h d is tan ce   m a k e s   th a n i m als  ca p t u r ed   in   s m all   s ca le.   T h f u ll  i m a g r eso l u t io n   s h o u ld   b b ig   e n o u g h   to   r etain   t h ab s o lu te  o b j ec s ize  i n   p ix e ls   s o   t h at  it   ca r r ies  s u f f icie n in f o r m at io n .   T h is   m a k es   th e   r atio   o f   th e   o b j ec s ize  to   th e   f u ll   i m a g s ize  q u i te  s m all  co m p ar ed   to   o b j ec ts   in   g r o u n d - p er ce iv ed   i m a g er y .     Evaluation Warning : The document was created with Spire.PDF for Python.
              I SS N :   2 7 2 2 - 2586   I A E I n J   R o b   &   A u to m ,   Vo l .   1 0 ,   No .   2 J u n 2 0 2 1     1 3 3     143   134   T o   illu s tr ate  th is ,   s u m m ar ie s   o f   th o b j ec s ize  m ea s u r ed   b y   t h b o u n d i n g - b o x   ar ea s   ar g iv e n   i n   Fig u r 1 .   Ou r   d ataset  w a s   co m p ar ed   to   th p o p u lar   g en er ic  o b j ec d etec tio n   d atasets   P A SC AL - VO C   [ 6 ]   an d   MS - C O C [ 7 ] ,   w h ic h   co n tai n s   e v er y d a y   o b j ec ts   s u c h   a s   c ar s ,   p ed estrian s   a n d   p ets Fig u r 1   ( a)   s h o w s   t h e   h is to g r a m   o f   t h ab s o l u te  o b j ec s ize  in   p ix el s .   Ob j ec s ize  w a s   r ep r esen ted   b y   th e   s q u ar r o o o f   t h e   b o u n d in g - b o x   ar ea .   T h b in s   ar n o r m a lized   to   co m p ar th d atase ts   o n   t h s a m e   s ca le.   Ma j o r ity   o f   t h e   o b j ec ts   in   o u r   w i ld lif d ata s e lies   i n   ed g le n g t h   n o   b i g g er   th an   1 2 8   p ix el s .   W h ile  t h e   o b j ec s ize  o f   o u r   d ataset  is   s m aller   th a n   th e   o t h er   d ataset s ,   t h f u ll  i m a g s ize  is   m u c h   b i g g er .   T h i s   m a k es   th e   r atio   o f   t h o b j ec s ize  a g ai n s t   th e   f u ll   i m ag s i ze   e v en   s m aller ,   a s   s h o w n   o n   F ig u r 1   ( b ) Fi g u r e   2   s h o w s   s o m e   ex a m p le   ze b r as  cr o p p e d   f r o m   t h ae r i al  i m a g er y   w ca p t u r ed   f r o m   th w ild   n atu r e.   Fi g u r 2   ( a)   s h o w s   t h v ar io u s   o r ien tatio n s   o f   t h ze b r as  f r o m   t h e   b ir d s   e y e   v ie w .   I n   Fi g u r e   2   ( b ) ,   th ze b r as   w er f o u n d   d i f f icu l to   b e   d is tin g u is h ed   f r o m   o t h er   an i m als d u to   th s m all  s ca le  an d   i llu m i n atio n   co n d it io n s .                 ( a)   ( b )     Fig u r 1 .   C h ar ac ter is t ics o f   o b j ec t size  in   o u r   d ataset,   P A S C AL - VO C ,   an d   MS - C O C O   h is to g r a m   o f   ( a)   ab s o lu te  o b j e ct  s ize  in   ed g le n g t h   an d   ( b )   r elativ o b j ec t size  ( o b j ec t size/i m a g s ize) ,   s h o w i n g   o b j ec ts   in   o u r   d ataset   o cc u p ies o n l y   l ittl p o r tio n   o f   th f u ll i m a g e         ( a)       ( b )     Fig u r 2 E x a m p le  o f   ze b r as c r o p p e d   f r o m   o u r   d ataset :   ( a)   d if f er en t o r ien tat io n s   o f   th ze b r as f r o m   ae r ial  p er s p ec tiv e   an d   ( b )   ze b r as in   d is tan ce   u n d er   v ar io u s   ill u m i n a tio n       Dee p   lear n in g   f r a m e w o r k s   s u ch   as  r ec u r r e n n e u r al  n e t w o r k   ( R NN)   [ 8 ]   an d   co n v o l u tio n al  n eu r al   n et w o r k   ( C NN [ 9 ]   h av b o o s ted   m ac h i n lear n in g   ap p licati o n s   to   an o t h er   lev el  i n   r ec en y ea r s .   R e s ea r ch   i n   f ield s   lik e   n a tu r la n g u a g p r o ce s s in g   ( N L P )   [ 1 0 ] ,   m ac h i n tr an s la tio n   [ 1 1 ] ,   an d   co m p u ter   v is io n   [ 1 2 ,   1 3 ]   h av b ee n   d o m in ated   b y   d ee p   lear n in g .   T h w o r d   d ee p ”  r ef er s   to   th d ep th   o f   i n f o r m at io n   th at  t h n e u r al   n et w o r k   ex tr ac ts   f r o m   t h e   r a w   d ata.   Mo d er n   C NN  f ac ilit ated   o b j ec d etec to r s   d er iv th f ea t u r r ep r esen tatio n s   b y   s tac k in g   s eq u en ce   o f   co n v o l u tio n a la y er s   o v er   th in p u i m a g e.   Du r i n g   t h p r o ce s s ,   th e   f ea t u r m ap   s ize  w as  co n tin u o u s l y   r ed u ce d   to   e x tr ac m o r e   ab s tr ac in f o r m a tio n   a n d   allo w   tr a n s lat io n - Evaluation Warning : The document was created with Spire.PDF for Python.
I n J   R o b   &   A u to m   I SS N:  2722 - 2586       Dete ctin g   A fr ica n   h o o fe d   a n i ma ls   in   a eria l ima g ery  u s in g   c o n vo lu tio n a l n e u r a l n etw o r k   ( Yu n fei  F a n g )   135   in v ar ia n ce .   T h is   w a s   n o r m all y   ac h iev ed   b y   s tr id ed   co n v o lu ti o n   o r   m ax - p o o lin g .   S m all  o b jects  w er f o u n d   to   b d if f ic u lt  to   h a n d le  as  t h eir   lo ca tio n   in f o r m atio n   co u ld   b lo s af ter   d o w n - s a m p lin g .   T o   d etec th s m all   o b j ec ts ,   th f ea tu r m ap   h as   to   r etain   r ea s o n ab le  r eso l u tio n ,   a n d   at  th s a m ti m b ein g   s e m a n tical l y   ex p r ess i v e.   Fo r   t h is   p u r p o s e,   w ap p lied   s eq u en ce   o f   atr o u s   co n v o l u tio n a la y er s   to   k ee p   th f ea tu r m ap   at   th d es ir ed   r eso lu tio n .   T h is   f its   t h s i n g le - la y er   r e p r ese n ta tio n   t h at   d etec ts   o b j ec ts   o f   a ll  s ca le s   f r o m   o n e   s in g le  f ea t u r la y er ,   s u c h   as  t h t w o - s tag f a s ter   r eg io n   b as ed   co n v o lu tio n al  n eu r al  n e t wo r k s   ( R - C NN ) .   T h e   m atc h in g   q u al ities   o f   t h a n ch o r s   an d   g r o u n d - tr u t h   w as  f o u n d   to   b h ig h l y   co r r elate d   to   th d etec tio n   p er f o r m a n ce .   f i n f ea t u r s tr id an d   co m p r eh e n s i v s et  o f   an c h o r s   h elp s   i m p r o v d et ec tio n   p er f o r m a n ce ,   esp ec iall y   f o r   th s m all  o b j ec ts .   Ho w e v er ,   it   is   tr ad e - o f f   b e t w ee n   d etec tio n   ac c u r ac y   a n d   co m p u tatio n   co s t.    Fas ter   R - C NN   [ 1 4 ]   is   t h r e p r esen tati v o f   t w o - s ta g e”   o b j ec d etec to r ,   w h ic h   tr ai n e d   r eg io n   p r o p o s al  n et w o r k   ( R P N )   to   g en er ate  o b j ec ca n d id ates.  T h ca n d id ates  w er th en   p ass ed   o n   to   an o th er   n et w o r k   f o r   m u lt i - cla s s   c lass i f icatio n   an d   b o u n d in g - b o x   f i n e - tu n i n g .   I n   t h s ec o n d   s ta g e,   “ROI  ali g n m e n t”  [ 1 5 ]   ( R OI   p o o lin g ”  i n   ea r l y   v er s io n )   cr o p p ed   th f ea t u r es  f o r   th o b j ec p r o p o s als   an d   f it  t h e m   in to   th s a m e   s ize.   “An ch o r s ”  w er a   s et   o f   p r e - d ef i n ed   b o u n d i n g - b o x e s   th at  s er v a s   o b j ec p r o p o s als  f o r   t h R P N.   T h e   o u tp u b o u n d i n g - b o x   w er d er iv ed   b y   p r ed ictin g   th o f f s et s ”  to   th an c h o r s .   Du r in g   tr ain i n g ,   an ch o r s   g en er ate  p o s iti v an d   n eg at iv e   ex a m p le s   ac co r d in g   to   its   i n te r s ec tio n   w it h   th g r o u n d - tr u t h .     Sk ip p in g   t h p r o p o s al  g e n er at in g   p r o ce s s ,   s i n g le  s h o o b j ec d etec to r   ( SS D )   p r o p o s ed   to   m ak e   f in al   p r ed ictio n s   o n   clas s   lab el  an d   b o u n d in g - b o x   co o r d in ates  o f f s ets  d ir ec tl y   f r o m   th f e at u r m ap s ,   u n li k f aster   R - C NN  t h at  h a n d les  o b j ec ts   o f   all  s ca les  o n   th s a m f ea t u r m ap .   SS w o r k ed   o n   h ier ar ch ical  f ea tu r e   p y r a m id   a n d   ea ch   f ea t u r la y er   w a s   d esi g n ated   to   o b j ec ts   o f   o n s ca le.   YO L ( Yo u   O n l y   L o o k   O n ce )   [ 1 6 ]   d iv id ed   th i m a g in to   g r id .   E ac h   g r id   ce ll  w as  r esp o n s ib l f o r   p r ed ictin g   t h o b j ec ts   w h o s b o u n d in g - b o x   ce n tr lie s   i n   t h is   ce ll.  T h cl ass   lab el,   co n f id e n ce   a n d   b o u n d in g - b o x   co o r d in ates  w er i n teg r ated   a s   s in g le   r eg r ess io n   p r o b le m ,   w h ic h   g a in ed   p r o ce s s i n g   s p ee d .   B u t   o n o b v io u s   s h o r tco m i n g   is   to   d ea w ith   o cc lu d ed   o b j ec ts   w h o s e   ce n tr es  lie   i n   t h s a m e   g r id   ce ll.   Dete cti n g   s m all  o b j ec ts   w as   also   f o u n d   n o ea s y ,   a s   t h g r id   d iv is io n   w as  co ar s e.   I n   u p g r ad ed   v er s io n s   o f   YO L [ 1 7 ,   1 8 ] ,   an ch o r s   w er i n tr o d u c ed   to   i m p r o v th e   p er f o r m a n ce   o n   lo ca tio n   p r ed i ctio n .   So m r ec en w o r k   p r o p o s ed   to   r ep r esen th e   o b j ec as  co o r d in ate  p o in ts ,   an d   m a k p r ed ictio n s   b y   g r o u p in g   t h p o in ts   [ 1 9 ,   2 0 ] .   A   f i n f ea t u r m ap   r eso lu ti o n   is   n ee d ed   to   i m p r o v d etec tio n   p er f o r m a n ce   o n   s m al o b j ec ts .   Me th o d s   f o r   r ec o v er in g   s p ati al  r eso lu tio n   w h ile  k ee p in g   s e m an tic  i n f o r m atio n   w er i m p o r ted   f r o m   i m a g e   s eg m e n tatio n   as  it  b y   n at u r r eq u ir es  d en s p r ed ictio n   o n   p ix el  lev e l.  A   co m m o n   p r ac tice  w as  to   u s lin ea r   up - p o o lin g   o r   tr an s p o s co n v o lu tio n   ( also   ca lled   d e - co n v o lu tio n ”)   [ 2 1 ]   af ter   co n ti n u o u s   d o w n - s a m p li n g .   f ea t u r p y r a m id   n et w o r k   ( FP N [ 2 2 ]   later ally   co n n ec ted   t h u p - s a m p led   la y er s   to   th p r ev io u s   la y er s   to   r ein f o r ce   th i n f o r m atio n ,   esp ec iall y   f o r   th s h allo w   la y er s .   T h is   f lex ib le  s tr u ct u r co u ld   s er v as  b ac k b o n e   n et w o r k   to   m a n y   d etec t io n   s c h e m e s .   Fo r   ex a m p le,   R eti n aN et  [ 2 3 ]   is   ap p r o x im a tel y   a   co m b in at io n   o f   SS D   an d   FP N ,   w it h   m o d i f ied   lo s s   to   m i tig a te  in f l u en ce   o f   o v er w h el m i n g   n u m b er s   o f   ea s y   n e g ati v ex a m p les.    I n   co n tr as to   tr a n s p o s co n v o l u tio n   a n d   u p - p o o lin g ,   a tr o u s   co n v o l u tio n   ( also   ca ll ed   d ilated   co n v o lu tio n   o r   “h o le”  alg o r ith m )   d o   n o d o w n - s a m p le  th o r ig i n al  i m a g b u t   ap p l y   p y r a m id   o f   atr o u s   f ilter s   w it h   d if f er en t   d ilatio n   r ates   to   ex tr ac t   f ea tu r es   f r o m   d if f er en t   s ca le s .   A   d ilat i o n   f ilter   is   n o r m al   co n v o lu tio n al   f ilter   i n s er ted   b y   ze r o s .   Di latio n   r ate   is   th e   d i s tan ce   to   i n s er ze r o s ,   w h ic h   c o n tr o ls   t h e f f ec tiv e   r ec ep tiv f ield   o f   t h f ilter .   T h is   tec h n iq u w as  ad o p te d   in   o b j ec d etec tio n   a n d   a p p lied   in   n u m er o u s   o cc asio n s ,   s u ch   as  r o ad   lan d etec tio n   in   [ 2 4 ]   an d   b r i d g cr a ck   d etec tio n   in   [ 2 5 ] .   I n   [ 2 6 ] ,   A tr o u s   co n v o l u tio n   w a s   r ep o r ted   to   h av i m p r o v ed   d etec tio n   p er f o r m a n ce   o f   s m al o b j ec ts .   W ith   d i f f er e n s ca le  o f   s m all”   o b j ec ts ,   th au th o r   u s ed   SS D,   w h ic h   w f o u n d   d if f ic u lt  to   m atch   t h an c h o r s .   An d   th e y   co n s tr u ct  e x tr la y er at  th en d   o f   t h C N N,   w h ile  w ap p l y   atr o u s   co n v o lu tio n   i n   in ter m ed iate  la y er s .   A   v er y   s i m ilar   co n te x as  o u r   w o r k ,   Af r ican   m a m m als  w e r d etec ted   f r o m   ae r ial  i m a g e s   in   [ 2 7 ] w h er t w o   s ib li n g   n e t w o r k s   w er co n s tr u cted .   O n p r ed icts   clas s   p r o b ab ilit y   f o r   ea ch   f ea tu r m ap   ce ll,  th e   o th er   o u tp u t s   b o u n d i n g - b o x   c o o r d in ates.  T h i m ag e s   w er cr o p p e d   in to   s m a ll  p iece s   a n d   d etec tio n   w as  m ad e   in   e ac h   p iece .   T h is   is   co m m o n   p r ac tice  to   d ea w i th   ex tr em el y   h i g h - r eso l u tio n   r e m o te  s en s i n g   i m a g es  [ 2 8 ]   Ob v io u s l y ,   th er w i ll  b a   b u n c h   o f   o b j ec ts   cu t   in to   d if f e r en p ar ts   a n d   t h is   is   a   p r o b le m   w h e n   p r ep ar in g   tr ain i n g   d ata  an d   s t itch in g   t h p atch es b ac k   to g e th er   to   f o r m   u n i f ied   d etec tio n .         2.   RE S E ARCH   M E T H O   2 . 1 .     B a ck bo ne  net w o rk   R esNet  [ 2 9 ]   ad d r ess ed   th d eg r ad atio n   p r o b lem   o f   v er y   d e ep   n eu r al  n et w o r k s ,   w h er ac cu r ac y   g et s   s atu r ated   w h e n   t h n et w o r k   g o es  to o   d ee p .   B y   ad d in g   t h in p u to   t h o u tp u t,  v er y   d ee p   n et w o r k   g ai n s   d etec tio n   ac cu r ac y .   Fi g u r 3   s h o w s   t h r esid u a u n i t h at  p er f o r m s   co n v o l u tio n   o p er atio n   a n d   s h o r tcu t”   co n n ec tio n   b et w ee n   t h i n p u an d   o u tp u t.  T h id ea   o f   r esid u al  lear n i n g   w as  u s ed   in   m a n y   o th er   ar ch itect u r es   lik Dar k n et - 5 3   o f   YO L O - v3   an d   I n ce p to n - v 3   o f   Go o g le Net  [ 3 0 ] .   T h n et w o r k   co u ld   g r o w   v er y   d ee p   b y   Evaluation Warning : The document was created with Spire.PDF for Python.
              I SS N :   2 7 2 2 - 2586   I A E I n J   R o b   &   A u to m ,   Vo l .   1 0 ,   No .   2 J u n 2 0 2 1     1 3 3     143   136   s tack i n g   a   b u n ch   o f   co n v o lu tio n a la y er s .   Ho w e v er ,   c o m p u tatio n al  co s t   h a m p er s   th u s e   o f   h ea v y   ar ch itect u r es f o r   b ig   i m a g es i n   o u r   d ataset.   Her ein ,   w u s ed   R esNet - 5 0   th at  co n tain s   5 0   co n v o l u tio n a l   la y er s .     T h m ai n   b o d y   o f   R e s Net - 5 0   co n tain s   4   b lo ck s   th at  w er co m p o s ed   b y   3 ,   4 ,   6   an d   3   la y er s   o f   t h e   r esid u al  u n its   as  s h o w n   in   Fi g u r 3 ,   r e s p ec tiv el y .   Or i g i n all y ,   t h s p atial  r eso l u tio n s   o f   t h b lo ck s   w er 1 /4 ,   1 /8 ,   1 /1 6   an d   1 /3 2   o f   th in p u t   i m ag s ize.   I n s tead   o f   co n t in u o u s l y   r ed u ce   t h s p atial  r eso l u tio n   af ter   B lo ck   2 ,   th o u tp u s tr id w a s   k ep at  1 /8   o f   th i n p u i m ag s ize.   T o   e x tr ac ab s tr ac f ea t u r es,  A ll  t h 3 x 3   co n v o lu tio n al  f il ter s   i n   B lo ck s   2 ,   3   an d   4   ar r ep lace d   b y   atr o u s   co n v o lu t io n al  f ilter s .   E s s en ce   o f   atr o u s   co n v o lu tio n   w a s   to   ca tch   i n f o r m atio n   f r o m   b i g g er   ar ea   an d   s k ip   s o m in   b et w ee n   b y   s e t tin g   h o le s ”  o n   t h e   f ilt er .   T h f o r m u latio n   o f   o n e - d i m en s io n al  s ig n al s   is :       [   ]             [           ]   [   ]                     w h er   [   ]   is   th o u tp u o f   i n p u   [   ]   co n v o lv ed   w it h   f ilter       [   ]   w it h   le n g th         is   th s tr id to   s a m p le    [   ] ca lled   d ilatio n   r ate” .   A   f i n f ea t u r m ap   s p atial  r eso l u tio n   co n tr ib u tes  to   a v o id in g   o m itt in g   th v er y   s m a ll   o b j ec ts   an d   m a k es  a n ch o r s   b etter   m atc h in g   t h g r o u n d - tr u th .   B u it  i s   tr ad e - o f f   c h o ic as  th n u m b er   o f   an ch o r s   i n cr ea s ex p o n e n tiall y   o n   d o u b le  s ized   f ea tu r m ap .   A s   th atr o u s   co n v o l u tio n al  la y er s   ar s tack e d   co n s ec u tiv e l y   an d   th ab s tr ac t   lev el  ac cu m u late s   in   v er y   d ee p   n et w o r k ,   w p r o p o s to   u s th s a m d ilatio n   r ate  eq u als  to   2   o th er s   th a n   p r o g r ess i v el y   e n lar g th d ilatio n   r ate A b latio n   o n   t h d ilatio n   r ate  w ill  b d o n e   in   Sectio n   5 .   B r ac k et  p ar in   Fig u r 4   illu s tr ate s   th m o d i f i ed   R esNet - 5 0   in   d etail,   i n clu d in g   la y er   s izes  a n d   d ep th s .   T h r est d ep icts   th f lo w   o f   t h f ea tu r e s   d er iv ed   f r o m   th b ac k b o n n et w o r k   in   Fas t er   R - C NN.           Fig u r 3 .   An   ex a m p le  o f   r esi d u al  u n it o f   R esNet,   t h 1 x 1   f i lter s   w er u s ed   to   ad j u s t th f e atu r d ep th s           Fig u r 4 A r ch itectu r o f   t h p r o p o s ed   m eth o d ,   th r ed   an d   w h ite  b o x es  r ep r ese n t   th atr o u s   f ilter s   t h at  ar ap p lied   in   th b ac k b o n n et w o r k ; t h n u m b er s   o n   t h to p   s h o w   t h d ep th   o f   la y er s , t h n u m b er s   at  th b o tto m   ar th s p atial  r eso lu t io n   o f   t h la y er s       T h o u tp u s tr id is   k ep at  8   f o r   s ev er al  r ea s o n s .   O n is   th at   th s m alle s o b j ec s ize  in   o u r   d ataset  is   ab o u 1 1 x 1 1 ,   n o m in al l y   it   w o u ld   p r o j ec to   at  leas o n e - p i x el  o n   th e   f ea tu r e   m ap   at  t h o u tp u s tr id o f   8 .   An o th er   is   t h at   s m all  o b j ec ts   n ee d   s m all   s tr id i n g   s tep   to   b etter   m atc h   t h a n c h o r s .   T h m atc h in g   q u alit y   f o r   ea ch   o b j ec s ca le  h as  g r ea i m p ac o n   t h d etec tio n   r es u lt s .   As  t h n u m b er   o f   s m all  o b j ec ts   co m p o s o n l y   s m al p o r tio n   o f   th e   d ataset.   Misali g n m e n b et w ee n   t h a n ch o r s   an d   g r o u n d - tr u t h   f o r   s e v er al  ex a m p le s   is   n o t   af f o r d ab le  f o r   th s m all  o b jects.  T h to tal  n u m b er   o f   a n ch o r s   s h o u ld   also   b co n s i d er ed .   I is   f u r th e r   d is cu s s ed   later   to g eth er   w i th   t h d etec tio n   ar ch itec tu r a n d   an ch o r   s etti n g s .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n J   R o b   &   A u to m   I SS N:  2722 - 2586       Dete ctin g   A fr ica n   h o o fe d   a n i ma ls   in   a eria l ima g ery  u s in g   c o n vo lu tio n a l n e u r a l n etw o r k   ( Yu n fei  F a n g )   137   2. 2 .     Det ec t io n   a rc hite ct ure   T h d etec tio n   ar ch itect u r f o l lo w s   Fas ter   R - C NN.   3 x 3   c o n v o l u tio n al  f il ter   w ill  s lid o n   th la s t   la y er   o f   th b ac k b o n n et w o r k   an d   d er iv es  f ea t u r m ap .   E ac h   ce ll  o f   t h f ea t u r m ap   o u t p u ts   p r ed ictio n s   f o r   th p r e - d e f in ed   s et  o f   a n ch o r s .   Su p p o s t h er ar k   an c h o r s   f o r   ea ch   ce ll,  t h p r ed ictio n s   will b 2 k   o b j ec t a n d   n o n - o b j ec t sco r es a n d   4 k   co o r d in ate  o f f s et s   f o r   R P N.     Featu r es   o f   th o b j ec p r o p o s als  g e n er ated   f r o m   t h R P ar d er iv ed   b y   p r o j ec tin g   th e   b o u n d in g - b o x es  to   th f ea t u r m ap .   T h en   th r o u g h   R OI   alig n m en t,  th f ea t u r es  ar cr o p p ed   in to   s ize  o f   1 4 x 1 4   u s i n g   b i - lin ea r   i n ter p o latio n   a n d   f u r t h e r   d o w n - s a m p led   to   7 x 7 ,   as  s h o w n   i n   F ig u r 5 .   Feat u r es   o f   d if f er e n o b j ec ts   ar e   alig n ed   to   th s a m s ize  th at  ca n   g o   th r o u g h   F C   la y er s   a n d   o u tp u th f i n al  p r ed ictio n s .   Fro m   Fig u r 1 ,   th e   m o s p o p u lar   o b j ec s ize  in   o u r   d ataset   lies   in   b et w ee n   4 8 x 4 8   an d   6 4 x 6 4 ,   w h ich   o n l y   p r o j ec ts   to   6 x 6   to   8 x 8   o n   th f ea t u r m ap .   I is   f ar   s m aller   t h an   1 4 x 1 4 .   W ex p er im en ted   w it h   s m aller   R OI   ali g n m e n s ize,   s u c h   as   7 x 7   an d   2 x 2   an d   d id   n o ac h i ev b etter   r es u lt s .   Di v id i n g   f e atu r es  o f   a   s m all   o b j e cts  in to   f i n g r ain ed   p iece s   h elp s   d escr ib th o b j ec in   d etail.   I n ter s ec tio n s   o f   u n io n   ( I o Us)   b et w ee n   t h an c h o r s   a n d   th g r o u n d - tr u t h   w er u s ed   as   m e tr ics  to   s elec t   p o s itiv e   a n d   n e g ati v e x a m p l es.  Fo r   o t h er   i m p le m e n tatio n   d etails  o f   Fa s ter   R - C NN,   w r ec o m m en d   r ef er r i n g   to   th o r ig i n al  w o r k .           Fig u r 5 .   R OI   alig n m en t o f   th s ec o n d   s tag e s m all  o b j ec ts   also   g ai n   b en ef its   b y   d i v id in g   f ea tu r es to   f i n g r ain ed   p iece s       2 . 2 .     Ancho s et t ing s   An c h o r s   w er e m p ir icall y   c h o s en   i n   m o s t   o f   th e   d etec tio n   ar ch itect u r es.  I n   Fa s ter   R - C NN  w h er p r ed ictio n s   w er m ad o n   a   s in g le  f ea t u r m ap ,   t h a n c h o r s   m u s co v er   all  t h o b j ec s c ales.  I n   SS D   w h er e   p r ed ictio n s   w er m ad o n   m u ltip le  f ea t u r m ap s ,   ea c h   f ea tu r la y er   r eq u ir es  a   s p ec i f ic  d e s ig n ed   o b j ec s ca le  an d   o v er all,   th an c h o r s   s h o u l d   m atc h   all  t h o b j ec s ca les,  in   th o r ig i n al  w o r k   o f   SS D,   t h au t h o r s   u s ed   th e   f o llo w in g   f o r m u latio n   to   as s i g n   th a n ch o r s   f o r   ea ch   f ea tu r la y er :                                             (       )       [       ]                 m   is   th n u m b er   o f   la y er s ,             an d             is   th m in i m u m   a n d   m ax i m u m   a n ch o r   s ca le  th a w a s   ass i g n ed   to   th lo w e s an d   h ig h est  f ea t u r la y er ,   r esp ec tiv el y .   B ec au s t h o b j ec s ca le  o f   o u r   d ataset  is   v er y   s m al l a n d   s p r ea d   i n   a   n ar r o w   r an g e,   w h ich   is   r ef lecte d   i n   F ig u r 1   ( b ) ,   m a n u all y   c h o o s in g   t h a n ch o r s   is   m o r e   f le x ib le.   Fo r   ex a m p le,   t h r ati o   o f   1 6 x 1 6   an ch o r   b o x   to   1 0 8 0 x 1 9 2 0   i m a g is   0 . 0 0 0 1 2 ,   m ak i n g   s   v er y   s m al n u m b er .   T h er w er s e m i - au to m atic  a n c h o r   ass i g n i n g   m et h o d s ,   s u c h   as  u s i n g   c en tr es  o f   K - m ea n s   clu s ter i n g   o n   th g r o u n d - tr u t h   b o x es  as  th an ch o r s .   Ob v io u s l y ,   K - m ea n s   cl u s ter i n g   o n l y   r ev ea ls   t h s tatis tic  p atter n s   o f   t h o b j ec s izes,  b u h as  n o   clu e   o n   t h f ea tu r s tr id s tep ,   as  w ell  as  th m atc h i n g   q u alit y   b et w ee n   th an c h o r s   an d   g r o u n d - tr u th .   Featu r s tr id s tep   is   o f   g r ea i m p o r tan ce   o n   th s m all  o b jects.  An d   ca r ef u ll y   b alan cin g   t h f ea t u r m ap   s ize   an d   m atc h in g   q u a l it y   i s   n ee d e d   f o r   v ar io u s   d etec tio n   ar ch ite ctu r es.   E x h a u s t iv s ea r c h i n g   o f   t h h y p er - p ar a m eter s   s u ch   as  i m a g s ize,   o u tp u s tr id an d   an c h o r   s ca les   w a s   i m p le m e n ted   f o r   b o th   th s in g le -   an d   m u lti - la y er   o b j e ct  d etec to r .   T h n u m b er   o f   an ch o r s   a n d   th I o m at c h in g   q u al ities   f o r   ea ch   o b j ec s ca le  ar in ter ested   f ac to r s   to   b lo o k ed   u p o n .   T a b le  1   s h o w s   s o m r esu lt s   f o r   th s in g le - la y er   d etec to r ,   w s u m m ar ize  t h p o r tio n   o f   th b ig g est  I o th at  ex ce ed s   th r es h o ld s   0 . 5 ,   0 . 6   an d   0 . 7   u n d er   th co m b in at io n s   o f   i m a g s ize,   o u tp u s tr id e   an d   an ch o r   s ca les.  T h asp ec r atio   is   s et  to   [ 0 . 5 ,   1 ,   2 ] .   A n c h o r   s ca les  ar r ep r esen ted   b y   th ed g le n g t h ,   f o r   ex a m p le,   an c h o r   s ca le  8   r ep r es en ts   a n ch o r   b o x   o f   s ize  8 x 8 .   Fo r   t h s a m i m a g s iz e,   t h an c h o r   s ca le s   s ee m   n o h a v m u ch   in f l u e n ce   o n   t h I o m a tch i n g   q u alities ,   p r o b ab ly   d u to   s m a ll o u tp u t s tr id s tep   an d   f i n d iv is io n   o f   t h an c h o r   s ca les.   T ab le  2   s h o w s   s o m o f   th e   r esu lt s   f o r   I o m atc h in g   q u a liti es  f o r   m u l ti - la y er   d etec to r s .   T h o u tp u t   s tr id lev el  i s   t h o r d er   o f   2   b y   w h ic h   t h f ea tu r m ap   s ize  was r ed u ce d .   Featu r la y er s   o f   l ev el  2 - 6   ar [ 2 2 , 2 3 2 4 ,   2 5 .   2 6 ]   ti m es  s m aller   th a n   th in p u i m a g s ize.   A n   e x tr an ch o r   s ca le  in   b et w ee n   t wo   an c h o r   s ca les  w a s   ad d ed   b y   t h ch o ice  i n d icate d   b y   i n ter m ed iate  s ca le”.   Evaluation Warning : The document was created with Spire.PDF for Python.
              I SS N :   2 7 2 2 - 2586   I A E I n J   R o b   &   A u to m ,   Vo l .   1 0 ,   No .   2 J u n 2 0 2 1     1 3 3     143   138   T ab le  1 .   A n ch o r   s ett in g s   a n d   m atc h in g   q u al ities   o f   s i n g le - la y er   o b j ec d etec to r     I mag e   si z e   O u t p u t   st r i d e   F e a t u r e   ma p   si z e   A n c h o r   sca l e s   N u mb e r   o f   a n c h o r s   I o U > 0 . 7   I o U > 0 . 6   I o U > 0 . 5   1   1 0 8 0 x 1 9 2 0   8   ( 1 3 5 , 2 4 0 )   [ 8 ,   1 6   , 3 2 ,   6 4 ,   1 2 8 ]   4 8 6 0 0 0   4 3 . 9 8 %   7 2 . 7 8 %   9 9 . 5 3 %   2   1 0 8 0 x 1 9 2 0   8   ( 1 3 5 , 2 4 0 )   [ 8 ,   1 6   , 3 2 ,   6 4 ,   1 2 8 2 5 6 ]   5 8 3 2 0 0   4 3 . 9 9 %   7 2 . 8 1 %   9 9 . 6 4 %   3   1 0 8 0 x 1 9 2 0   8   ( 1 3 5 , 2 4 0 )   [ 1 6   , 3 2 ,   6 4 ,   1 2 8 ]   3 8 8 8 0 0   4 3 . 9 8 %   7 2 . 7 8 %   9 9 . 5 3 %   4   1 0 8 0 x 1 9 2 0   8   ( 1 3 5 , 2 4 0 )   [ 1 6   , 3 2 ,   6 4 ,   1 2 8 ,   2 5 6 ]   4 8 6 0 0 0   4 3 . 9 9 %   7 2 . 8 1 %   9 9 . 6 4 %   5   1 0 8 0 x 1 9 2 0   8   ( 1 3 5 , 2 4 0 )   [ 3 2 ,   6 4 ,   1 2 8 ]   2 9 1 6 0 0   4 3 . 9 1 %   7 2 . 4 8 %   9 8 . 6 3 %   6   1 0 8 0 x 1 9 2 0   8   ( 1 3 5 , 2 4 0 )   [ 3 2 ,   6 4 ,   1 2 8 ,   2 5 6 ]   3 8 8 8 0 0   4 3 . 9 2 %   7 2 . 5 0 %   9 8 . 7 3 %   7   5 4 0 x 9 6 0   8   ( 6 8 , 1 2 0 )   [ 8 ,   1 6   , 3 2 ,   6 4 ,   1 2 8 ]   1 2 2 4 0 0   2 7 . 6 3 %   6 0 . 0 7 %   9 3 . 1 2 %   8   5 4 0 x 9 6 0   8   ( 6 8 , 1 2 0 )   [ 8 ,   1 6   , 3 2 ,   6 4 ,   1 2 8 2 5 6 ]   1 4 6 8 8 0   2 7 . 6 3 %   6 0 . 0 7 %   9 3 . 1 2 %   9   5 4 0 x 9 6 0   8   ( 6 8 , 1 2 0 )   [ 1 6   , 3 2 ,   6 4 ,   1 2 8 ]   9 7 9 2 0   2 7 . 6 1 %   6 0 . 0 1 %   9 2 . 8 3 %   10   5 4 0 x 9 6 0   8   ( 6 8 , 1 2 0 )   [ 1 6   , 3 2 ,   6 4 ,   1 2 8 ,   2 5 6 ]   1 2 2 4 0 0   2 7 . 6 1 %   6 0 . 0 1 %   9 2 . 8 3 %   11   5 4 0 x 9 6 0   8   ( 6 8 , 1 2 0 )   [ 3 2 ,   6 4 ,   1 2 8 ]   7 3 4 4 0   2 4 . 8 0 %   4 9 . 7 3 %   6 8 . 9 1 %   12   5 4 0 x 9 6 0   8   ( 6 8 , 1 2 0 )   [ 3 2 ,   6 4 ,   1 2 8 ,   2 5 6 ]   9 7 9 2 0   2 4 . 8 0 %   4 9 . 7 3 %   6 8 . 9 1 %       T ab le  2 .   A n ch o r   s ett in g s   a n d   m atc h in g   q u al ities   o f   m u lti - la y er   o b j ec d etec to r     I mag e   si z e   O u t p u t   s t r i d e     l e v e l   A n c h o r   sca l e s   I n t e r me d i a t e     sca l e   N u mb e r   o f   a n c h o r s   I o U > 0 . 7   I o U > 0 . 6   I o U > 0 . 5   1   1 0 8 0 x 1 9 2 0   2 - 6   [ 8 ,   1 6   , 3 2 ,   6 4 ,   1 2 8 ]     5 0 6 4 3 0   9 . 5 5 %   3 4 . 3 0 %   7 8 . 0 8 %   2   1 0 8 0 x 1 9 2 0   2 - 6   Y   1 0 1 2 8 6 0   2 8 . 6 3 %   7 4 . 3 5 %   9 7 . 8 5 %   3   1 0 8 0 x 1 9 2 0   2 - 6   [ 1 6   , 3 2 ,   6 4 ,   1 2 8 ,   2 5 6 ]     5 0 6 4 3 0   3 3 . 3 9 %   7 0 . 2 9 %   9 9 . 4 5 %   4   1 0 8 0 x 1 9 2 0   2 - 6   Y   1 0 1 2 8 6 0   7 7 . 0 1 %   9 9 . 9 0 %   1 0 0 . 0 0 %   5   1 0 8 0 x 1 9 2 0   2 - 6   [ 3 2 ,   6 4 ,   1 2 8 ,   2 5 6 ,   5 1 2 ]     5 0 6 4 3 0   4 7 . 8 7 %   7 3 . 2 8 %   9 8 . 7 4 %   6   1 0 8 0 x 1 9 2 0   2 - 6   Y   1 0 1 2 8 6 0   9 2 . 2 1 %   9 7 . 4 9 %   9 8 . 7 5 %   7   1 0 8 0 x 1 9 2 0   3 - 7   [ 8 ,   1 6   , 3 2 ,   6 4 ,   1 2 8 ]     1 2 6 6 7 5   2 . 3 1 %   8 . 8 0 %   2 4 . 1 1 %   8   1 0 8 0 x 1 9 2 0   3 - 7   Y   2 5 3 3 5 0   7 . 4 3 %   2 4 . 1 0 %   5 4 . 9 0 %   9   1 0 8 0 x 1 9 2 0   3 - 7   [ 1 6   , 3 2 ,   6 4 ,   1 2 8 ,   2 5 6 ]     1 2 6 6 7 5   9 . 5 5 %   3 4 . 3 1 %   7 8 . 1 5 %   10   1 0 8 0 x 1 9 2 0   3 - 7   Y   2 5 3 3 5 0   2 8 . 6 3 %   7 4 . 3 4 %   9 7 . 8 3 %   11   1 0 8 0 x 1 9 2 0   3 - 7   [ 3 2 ,   6 4 ,   1 2 8 ,   2 5 6 ,   5 1 2 ]     1 2 6 6 7 5   3 3 . 9 1 %   6 9 . 7 1 %   9 8 . 2 1 %   12   1 0 8 0 x 1 9 2 0   3 - 7   Y   2 5 3 3 5 0   7 3 . 4 8 %   9 7 . 0 9 %   9 8 . 7 2 %       3.   RE SU L T S AN AN AL Y SI S   3 . 1 .     Da t a s et   T h d ataset  w as  co llected   in   s e m i - d eser ar ea s   in   s o u t h e r n   Na m ib ia  u s i n g   DJ I   p h an t o m   3   an d   p h an to m   4   in   Dec e m b er   ( s u m m er   in   Na m ib ia) .   W to o k   n u m er o u s   f li g h ts   i n   d i f f er e n ti m es  d u r in g   t h d a y   f o r   w ee k ,   a n d   t h d u r atio n   o f   th e   v id eo s   a m o u n ted   to   s e v er al  h o u r s .   T h r ee   s p ec ies  wer co v er ed   in   t h is   d ataset:  b lu e   w ild eb ee s ( g n u ) ,   g e m s b o k   ( o r y x ) ,   a n d   ze b r a.   T h ese  s p ec ies  w er ch o s e n   b ec au s th e y   s p r ea d   w id el y   i n   s o u th er n   Af r ica,   h a v in g   w e ll  r ep r esen tat io n   o f   th h o o f ed   an i m al s   o n   th i s   la n d .   A d d itio n al l y ,   t h e y   ar g r eg ar io u s ,   m a k i n g   it  ea s y   to   r ec o r d   n u m b er   o f   in s ta n ce s   i n   o n s h o t.  A ls o   ad d i n g   ch alle n g es  to   th d etec to r   b y   in tr o d u ci n g   cr o w d ed   an d   o cc lu d ed   o b j ec ts .   T h r eso lu tio n   o f   t h i m a g i s   1 0 8 0 x 1 9 2 0 .   Fra m es   w er ta k en   f r o m   th e   v id eo s   e v er y   ce r tain   i n ter v al   o f   s ec o n d s   an d   w er d i v id e d   r an d o m l y   in to   tr ain i n g   a n d   test in g   s ets.  1 6 9 3   f r a m es  w it h   ar o u n d   2 0 0 0 0   in s ta n ce s   w er u s ed   f o r   tr ain i n g ,   a n d   3 8 9   f r a m es  w it h   4 0 1 7   in s ta n ce s   w er u s ed   as   test in g   ex a m p le s .   T h e   f li g h h eig h t   w as   1 0 - 2 0   m et er s ,   w it h   s ig h ts   f r o m   v ar io u s   an g le s   to   th e   o b j ec t.  T h en v ir o n m en a n d   illu m i n atio n   co n d itio n s   w er e   d iv er s i f ied   o n   p u r p o s to   allo w   g en er aliza tio n .     3 . 2 .     B a ck bo ne  net w o rk   R esNet - 5 0   w as  ta k e n   as   th e   b asic  f ea t u r e x tr ac ti n g   b ac k b o n n e t w o r k   f o r   its   r o b u s tn es s   an d   m o d er ate  s ize.   T o   r etain   th o u tp u s tr id at  8 ,   atr o u s   co n v o lu tio n a la y er s   w it h   s tr id 2   r ep lace d   th n o r m al   co n v o lu tio n al   la y er s   a n d   t h s tr id 2   d o w n - s a m p li n g   o p er atio n s .   T h la s la y er   o f   t h B l o ck   4   w as   ta k en   a s   th f ea t u r m ap   i n   t h Fas ter   R - C NN  d etec t io n   s ch e m e.   F ig u r 6   ( a)   is   s ch e m atic   o f   t h b ac k b o n n et w o r k .   T h h ig h lig h ted   la y er s   ar th ac tiv atio n   f ea t u r m ap s .   T h FP s tr u ctu r r ec o v er s   th s p atial  r eso lu tio n   o f   th f ea tu r m ap   b y   u p - s a m p li n g   a n d   liter al  co n n ec tio n   as  s h o w n   i n   Fi g u r 6   ( b ) .   T h t w o   n et w o r k   s tr u ctu r e s   co u ld   b o th   b u s ed   in   Fa s ter   R - C NN  th a m a k p r ed ictio n s   o n   o n s i n g le  f ea t u r m ap .     Fo r   m u lti - la y er   d etec to r s ,   d ir ec tl y   m a k in g   p r ed ictio n s   f r o m   t h s h allo w   la y er s   is   n o f ea s ib le.   I is   b etter   to   en h an ce   t h s e m atic  in f o r m atio n   b y   in tr o d u cin g   FP s tr u ct u r e.   SS ta k es  t h o u tp u la y er s   o f   t h e   FP u p o n   R esNet - 5 0   as  s h o w n   in   Fig u r 6   ( c) .   YOL O - v 3   u s ed   an c h o r s   to   o v er co m d ef icie n c y   o f   lo ca tio n   ac cu r ac y   i n   ea r l ier   v er s io n s   o f   YOL O.   P r ed ictio n s   w er m a d o n   p y r a m id   o f   3   f ea t u r la y er s   s tar ti n g   f r o m   o u tp u s tr id 8 .   B ec au s o f   th e   s q u ee ze - a n d - e x cite m e n s tr u c tu r o f   th n et w o r k   d o es  s i m il ar   w o r k   as  in   FP N,   no   m o d if ica tio n   w as  m ad o n   th n et w o r k   s tr u ctu r i n   o u r   e x p er i m e n t.      Evaluation Warning : The document was created with Spire.PDF for Python.
I n J   R o b   &   A u to m   I SS N:  2722 - 2586       Dete ctin g   A fr ica n   h o o fe d   a n i ma ls   in   a eria l ima g ery  u s in g   c o n vo lu tio n a l n e u r a l n etw o r k   ( Yu n fei  F a n g )   139         ( a)   ( b )   ( c)     Fig u r 6 .   A cti v atio n   f ea t u r m ap   o f   v ar io u s   n et w o r k   s tr u ct u r es: ( a)   s tr aig h t f o r w ar d   R esNe w it h   atr o u s   f ilter s ,   ( b )   FP s tr u ct u r e,   an d   ( c)   SS s t y le  p r ed ictio n s   o n   F P lay er s       3 . 4 .     Ancho rs   Fo r   s m all  o b j ec ts   in   b ig   i m a g es,  b etter   m atc h i n g   o f   t h an c h o r s   w it h   th g r o u n d - tr u th   co u ld   o n l y   b e   ac h iev ed   b y   elab o r ate  d iv is io n   o f   a n c h o r   s ca les  a n d   f in r eso lu tio n   f ea t u r m ap .   T o   f u r th er   r ev ea t h I o U   m atc h in g   f o r   t h o b j ec s ca les,   Fi g u r 7   p lo th e   b ig g es I o o f   ea ch   g r o u n d - tr u t h   ag ai n s t h e   o b j ec s ize.   T h e   h is to g r a m   s h o w s   th e   n u m b er   o f   o b j ec ts   lie  i n   ea c h   o b j ec s ca le.   E x a m p les   ar ta k en   f r o m   T ab le  2 ,   th h y p er - p ar am eter s   ar o n   th to p   o f   ea ch   f i g u r ( Fi g u r 7   ( a)   an d   ( b ) ) .   I n ter m ed iate  an c h o r s   ar i n s er ted   in   th r i g h t   co lu m n   co m p ar ed   to   th lef t   ( Fig u r 7   ( b )   t o   ( a)   an d   Fig u r 7   ( d )   to   ( c ) ) .   I o m atc h i n g   i s   im p r o v ed   b y   ad d in g   in ter m ed iate  an c h o r   s ca les,  wh ich   ca n   b s ee n   b y   co m p ar i n g   Fi g u r 7   ( b )   to   ( a)   an d   ( d )   t o   ( c) .   I o p ea k s   ar e   f o r m ed   ar o u n d   th n e w   i n s er t ed   an ch o r   s ca le.   Fro m   th to p   r o w   o f   Fig u r 7   to   th b o tto m   r o w   ( ( a)   to   ( c)   an d   Fig u r 7   ( b )   to   ( d ) ) ,   I o m a t ch in g   i s   i m p r o v ed   b y   m o v in g   th f ea tu r m ap   o n la y er   u p ,   w h ich   i n d icate   a   f i n er   f ea t u r m ap   r eso lu t io n .   T h p o r tio n   o f   I o U> 0 . 5   ac h ie v es  1 0 0 at   f ea t u r le v el  2 - 6   w ith   i n ter m e d iate   an c h o r s   as   s h o w n   i n   Fig u r 7   ( d ) .   Ho w ev er ,   t h e   to tal  n u m b er   o f   an c h o r s   i s   ab o u 1 M,   w h ile  t h n u m b er   o f   a n ch o r s   o n   t h s a m e   f ea t u r lev els  w it h o u in ter m ed iate  an ch o r   s ca les  is   ab o u t   5 0 0 K.   A f ea t u r lev el  3 - 7   w it h   in ter m ed iate  an ch o r s ,   t h to tal  n u m b er   o f   an ch o r s   i s   o n l y   1 2 0 K.   Fo r   s in g le - la y er   o b j ec d etec to r s ,   th o p tim u m   ch o ice  is   R o w   3   o f   T ab le  1 ,   th a n ch o r   s ca les   ar [ 1 6 ,   3 2 ,   6 4 ,   1 2 8 ]   w it h   th e   o r ig i n al  i m a g s ize.   Fo r   th m u lti - la y er   d etec to r s ,   R o w   4,   an d   R o w   6   o f   T ab le  2   h as  co m p ar ab le  I o m atc h i n g   r ate  a n d   R o w   6   g en er ates  le s s   a n ch o r s   b y   o m itti n g   an c h o r   s ca le  o f   1 6 .   Ho w e v er ,   th p o o r ly   m atc h ed   o b j ec ts   a r ce n tr alize d   o n   t h s m a ll  o b j ec ts .   A s   s h o w n   i n   Fi g u r 8 ,   th e   o b j ec t s   w it h   b i g g e s I o Us<0 . 5   ar a ll  b elo w   3 2 x 3 2 .   T h is   in f l u en c es   t h d etec tio n   f o r   s m al l o b j ec ts .   So   h y p er - p ar a m eter s   in   R o w   4   is   c h o s en   f o r   S SD.            ( a)   ( b )           ( c)   ( d )     Fig u r 7 .   Vis u al izatio n   o f   t h o b j ec t size  an d   its   b est  m atch e d   I o ( b lu d o ts )   ( a)   r esu lts   f o r   f ea tu r le v els 3 - 7   an d   ( b )   its   co m p ar atio n   af ter   i n ter m ed iate  a n ch o r s   ar ad d ed ,   an d     ( c)   f ea tu r lev el s   2 - 6   an d   ( d )   its   co m p ar atio n   af ter   in ter m ed iate  an ch o r s   ar e   ad d ed   Evaluation Warning : The document was created with Spire.PDF for Python.
              I SS N :   2 7 2 2 - 2586   I A E I n J   R o b   &   A u to m ,   Vo l .   1 0 ,   No .   2 J u n 2 0 2 1     1 3 3     143   140       Fig u r 8 .   An ch o r s   h av i n g   h i g h   I o m atc h i n g   r ate,   b u t p o o r   m atc h es a r ce n tr alize d   o n   s m all  o b j ec ts       3 . 5 .     M o del e v a lua t i o n   T h m o d els  w er tr ain ed   f r o m   s cr atch   o n   t h tr ain i n g   s et  o f   o u r   d ataset.   MS - C O C m etr ics  w er e   u s e d   to   e v alu a te  t h d etec tio n   p er f o r m a n ce .   O n l y   t h o v er all   m A P   ( m ea n   a v er ag p r ec is io n )   an d   m AP   f o r   t h e   lar g e,   m ed iu m ,   an d   s m a ll  o b j e cts  w er co n s id er ed ,   n eg lect in g   th co r r esp o n d in g   m AR   ( m e an   av er ag r ec all) .   T ab le  3   lis ted   th ev al u atio n   r esu lt s   f o r   th v ar io u s   d etec tio n   m o d el s ,   in c lu d i n g   t w o - s ta g e   d etec to r   Fas ter   R - C NN  a n d   o n e - s ta g S SD  a n d   YOL O - v 3 .   T h asp ec r atio s   w er all  s et  to   [ 0 . 5 ,   1 ,   2 ] .   Fo r   Fas ter   R - C NN,   t h e   b ac k b o n n et w o r k s   w er b ase d   o n   R esNet - 5 0 .   H y p er - p ar a m eter s   HP 1   an d   HP 2   d ef in ed   th i m a g s ize  an d   an ch o r   s ca le s .   HP 1   w as  t h s e ttin g s   w i th   t h o p ti m u m   a n ch o r   ch o ice  b alan cin g   t h I o m a tch i n g   r ate  a n d   th e   to tal  n u m b er   o f   an ch o r s .   Un d er   th s a m b ac k b o n n et w o r k   w ith   atr o u s   f il ter s .   HP 1   o u tp er f o r m s   HP 2   as  th I o m atc h i n g   r ate  b et w ee n   th an c h o r s   an d   g r o u n d - tr u t h   is   h i g h er .   R a te1   an d   r ate  2   d ef i n ed   th d if f er en t   d ilatio n   r ates.   Usi n g   t h s a m e   s m alles d ilatio n   r ate  [ 2 ,   2 ,   2 ]   led   to   b etter   r es u lts   t h an   en l ar g in g   t h e   d ilatio n   r ate  f o r   ea ch   b lo ck   o f   R e n et - 5 0 .   T h is   co u ld   b ca u s ed   b y   th n ar r o w   r an g o f   t h o b j ec s ca le  co m b in ed   w it h   elab o r ate  d iv is io n   o f   t h a n c h o r s   th at  m a k es   en lar g i n g   th e   r ec ep tiv e   f ield ”  n o n ec e s s ar y .   HP 2   u s e s   i m a g s ize  th at  i s   h al f   o f   t h o r ig i n a i m a g e,   w h ic h   lead s   to   m u ch   lig h ter   n e t w o r k .   B u t h p er f o r m a n ce   is   i n f er io r   d u to   th w o r s an c h o r   m atc h in g   r ate  a n d   lo s s   o f   i n f o r m atio n .       T ab le  3 .   E v alu atio n   o f   v ar io u s   m o d els   D e t e c t i o n   m o d e l   B a c k b o n e   Hy p e r - p a r a m e t e r s   m A P   m A ( l a r g e )   m A ( m e d i u m )   m A ( s m a l l )   F a st e r     R - C N N   R e sN e t - 5 0 + a t r o u s   H P 1 + r a t e 1   0 . 5 9   0 . 6 9   0 . 6   0 . 3 6   R e sN e t - 5 0 + a t r o u s   H P 1 + r a t e 2   0 . 4 2   0 . 6 2   0 . 5 8   0 . 3 3   R e sN e t - 5 0 + a t r o u s   H P 2 + r a t e 1   0 . 5 1   0 . 6 7   0 . 5 2   0 . 2 3   R e sN e t - 5 0 + F P N   H P 1   0 . 4 8   0 . 6 4   0 . 4 9   0 . 1 7   S S D     R e sN e t - 5 0 + F P N   S H P   0 . 3 2   0 . 3 4   0 . 3 3   0 . 2 8   Y O L O - v3   D a r k n e t - 52   YHP   0 . 3 4   0 . 5 2   . 0 . 3 6   0 . 3 1   H P 1 :   i mag e   si z e   1 0 8 0 x 1 9 2 0 ,   a n c h o r   s c a l e s:   [ 1 6 , 3 2 , 6 4 , 1 2 8 ]   H P 2 :   i mag e   si z e   5 4 0 x 9 6 0 ,   a n c h o r   sca l e s:   [ 8 , 1 6 , 3 2 , 6 4 ]   R a t e 1 :   d i l a t i o n   r a t e   [ 2 , 2 , 2 ]   R a t e 2 :   d i l a t i o n   r a t e   [ 2 , 4 , 8 ]   S H P 1 :   i mag e   si z e :   1 0 8 0 x 1 9 2 0 ,   f e a t u r e   l e v e l :   3 - 7 ,   a n c h o r   sc a l e s:   [ 1 6 , 3 2 , 6 4 , 1 2 8 , 2 5 6 ] ,   i n t e r me d i a t e   sc a l e :   Y e s   Y O L O - v 3 :   i mag e   si z e :   1 0 8 0 x 1 9 2 0 ,   a n c h o r   sca l e s [1 6 ,   6 4 ,   2 5 6 ]       SS co u ld   o n l y   tak t h f ea t u r la y er s   f r o m   FP s tr u ct u r e.   SHP ,   th h y p er - p ar a m ete r s   f o r   SS D   w a s   t h o p ti m u m   o p tio n   t h at  w a s   an a l y s ed   p r ev io u s l y .   T h e   d etec tio n   p er f o r m a n ce   w a s   i n f er io r   f o r   all  o b j ec s ca les t h a n   t h t w o - s ta g Fa s t er   R - C NN.   Fin d i v i s io n   o f   t h an ch o r   s ca les  w a s   co m p u ls o r y   f o r   s u c h   d ata  t h at  w er b o th   o b j ec tiv el y   an d   r ela tiv el y   s m all.   Ho w ev er ,   d esi g n in g   p r o p er   an ch o r   s et  f o r   s eq u en ce   o f   f ea t u r e   la y er s   i s   n o ea s y .   Go o d   I o m atc h in g   f o r   th o b j ec s ca les  o n   b o th   th s m a ll  an d   t h lar g en d s   is   d i f f icu lt  to   b m et  at  t h s a m e   ti m e.   YO L O - v 3   o u tp u t s   t h r ee   f ea tu r l a y er s ,   t h an c h o r   s ca le s   ar s et  to   [ 1 6 ,   6 4 ,   2 5 6 ] .   P er f o r m a n ce   i m p r o v e m e n w a s   g ai n ed   o n   all  o b j ec t scale s   o v er   SS w it h   FP s tr u ct u r e.     Fig u r 9   g iv e s   v is u aliza tio n s   o f   s o m g o o d   d etec tio n   r es u lt s .   Fi g u r e   9   ( a) - ( c) ,   ( d ) - ( f ) ,   an d   ( g ) - ( j )   ar r esu lt s   f o r   t h s p ec ie s ze b r a,   o r y x   a n d   b lu w ild eb ee s t ,   r es p ec tiv el y .   T h s ce n ar io   is   w h er th an i m a ls   ar e   clea r   an d   p ar ted ,   clu tter ed ,   an d   o cc lu d ed   b y   o n an o t h er ,   in   d is tan ce   a n d   s m all   in   s ize  a n d   th co r r esp o n d in g   r esu lt s   ar Fi g u r 9   ( a) ,   ( d ) ,   a n d   ( g ) Fi g u r 9   ( b ) ,   ( e) ,   an d   ( h ) an d   F ig u r 9   ( c) ,   ( f ) ,   an d   ( i) r esp ec tiv el y .   T h e   p ictu r es  ar cr o p p ed   an d   r esiz ed   f o r   d is p lay   co n v e n ie n ce   an d   d o   n o r ev ea th ei r   r ea s ize   o f   th f u ll  i m ag e .   T h o b j ec ts   th at  ar d en s el y   c lu tter ed   an d   s m all  i n   s ize  ar n o to r io u s l y   d if f ic u lt  to   d etec t,   o u r   m et h o d   s h o w s   g o o d   r esu lts   i n   s o m p lace s .     Evaluation Warning : The document was created with Spire.PDF for Python.
I n J   R o b   &   A u to m   I SS N:  2722 - 2586       Dete ctin g   A fr ica n   h o o fe d   a n i ma ls   in   a eria l ima g ery  u s in g   c o n vo lu tio n a l n e u r a l n etw o r k   ( Yu n fei  F a n g )   141   E x a m p le s   o f   f al s d etec tio n s   a r s h o w n   i n   Fig u r 10 Fig u r 1 0   ( a) - ( c)   ar f alse  p o s itiv es  f o r   ze b r as,   o r y x   an d   b lu w ild eb ee s t,  Fi g u r 1 0   ( d ) - ( f )   ar th an i m a ls   n o b ein g   d etec ted   ( f alse  n eg ati v es).   T h f als e   n eg at iv e s   ar m ai n l y   th s m all   o b j ec ts .   A d d in g   m o r tr ain i n g   ex a m p le s   o f   th s m all  o b j ec ts   in   th f u t u r m a y   h elp   th s itu a tio n .             ( a)   ( b )   ( c)               ( d )   ( e)   ( f )               ( g )   ( h )   ( i)     Fig u r 9 Dete ctio n   r esu lts   of   ( a)   o r y x   w h e n   th e y   ar ap ar t,  ( b )   cr o w d ed   an d   o cc lu d ed ,   an d   ( c)   f o r   th s m al o b j ec ts ; ( d )   ze b r w h e n   th e y   a r ap ar t,  ( e )   cr o w d ed   an d   o cc lu d ed ,   an d   ( f )   f o r   th s m all  o b jects; an d   ( g )   b lu w ild eb ee s w h e n   th e y   ar ap ar t,  ( h )   cr o w d ed   an d   o cc lu d ed ,   an d   ( i)   f o r   th s m all  o b j ec ts             ( a)   ( b )   ( c)               ( d )   ( e)   ( f )     Fig u r 10 Fals p o s itiv d etec tio n s   f o r   ( a)   ze b r a ,   ( b )   o r y x ,   a n d   ( c)   b lu w ild eb ee s t; a n d   f al s n e g ati v d etec tio n s   f o r   ( d )   ze b r a,   ( e ) ,   o r y x ,   a n d   ( c)   b lu w ild eb ee s t   Evaluation Warning : The document was created with Spire.PDF for Python.
              I SS N :   2 7 2 2 - 2586   I A E I n J   R o b   &   A u to m ,   Vo l .   1 0 ,   No .   2 J u n 2 0 2 1     1 3 3     143   142   4.   CO NCLU SI O N   W b r o u g h u p   th p r o b lem   o f   d etec tin g   A f r ica n   h o o f ed   m a m m als  u s i n g   ae r ial  i m ag er y   ta k en   f r o m   UAVs.  I n   R e s Net - 5 0   b ac k b o n n et w o r k ,   s eq u e n ce   o f   a tr o u s   co n v o lu tio n al  f ilter s   w e r u s ed   to   k ee p   th e   f ea t u r m a p   r eso lu tio n   at  ce r tain   le v el  an d   at  th s a m ti m co n ti n u ex tr ac ti n g   d ee p er   ab s tr ac s e m an t ic   f ea t u r es.  T h d etec tio n   p er f o r m an ce   f o r   s u ch   d ata  is   s en s iti v to   th m atc h in g   q u a lit y   b et w ee n   t h an c h o r   an d   th g r o u n d - tr u t h .   T h i m ag s ize,   o u tp u s tr id an d   an ch o r   ch o ices  co m b in ed   to g et h er   d eter m in t h I o U   m atc h in g   q u a liti e s .   T h is   f ea t u r ex tr ac tio n   tech n iq u w a s   p r o v en   r o b u s i n   d etec ti n g   s m al o b j ec ts   b y   co m p ar i n g   to   FP N.   T h tw o - s tag Fa s ter   R - C N s u r p as s   s in g le - s ta g d etec to r s   in   d etec tin g   s m all  o b j ec t s ,   esp ec iall y   f o r   o u r   d ataset  w h er th o b j ec t size  is   o f   s m al l r atio   to   th f u ll i m ag e.         ACK NO WL E D G E M E NT S   T h v id eo s   u s ed   in   t h is   p ap er   w er co llected   u n d er   th ass is t an ce   o f   Go n d w a n C o llectio n ,   Na m ib ia.       RE F E R E NC E S     [1 ]   B.   Ke ll e n b e rg e r,   M .   V o lp i,   a n d   D.  T u ia,  " F a st  a n im a d e tec ti o n   i n   UA V   im a g e u sin g   c o n v o lu ti o n a n e u ra l   n e tw o rk s,"   2 0 1 7   IE EE   I n ter n a t io n a Ge o sc ien c e   a n d   Rem o te S e n si n g   S y mp o si u ( IGARS S ) ,   F o r W o rth ,   T X ,   USA ,   2 0 1 7 ,   p p .   8 6 6 - 8 6 9 .     [2 ]   C.   Ch e n   a n d   K.  L iu ,   " S ti n g ra y   d e tec ti o n   o f   a e rial  i m a g e s   w it h   r e g io n - b a se d   c o n v o l u ti o n   n e u ra n e tw o rk , "   2 0 1 7   IEE In ter n a ti o n a C o n fer e n c e   o n   Co n su me r E lec tro n ics   -   T a iw a n   ( ICCE - T W ) ,   T a ip e i,   T a i wa n ,   2 0 1 7 ,   p p .   1 7 5 - 1 7 6 .     [3 ]   L .   B.   Bo u d a o u d ,   F .   M a u ss a n g ,   R.   G a re ll o ,   a n d   A .   Ch e v a ll ier,  " M a rin e   Bir d   De te c ti o n   Ba se d   o n   De e p   L e a rn in g   u sin g   Hig h - Re so lu ti o n   A e rial  I m a g e s,"   OCEANS   2 0 1 9   -   M a rs e il le ,   M a rse il le,  F ra n c e ,   2 0 1 9 ,   p p .   1 - 7 .     [4 ]   S. - J.  Ho n g ,   Y.   Ha n ,   S . - Y.  Kim ,   A . - Y.  Lee ,   a n d   G .   Kim ,   " A p p li c a ti o n   o f   d e e p - lea rn i n g   m e th o d t o   b ird   d e tec ti o n   u sin g   u n m a n n e d   a e ri a v e h icle   ima g e r y , "   S e n so rs ,   v o l.   1 9 ,   n o .   7 ,   p p .   1 - 16 ,   2 0 1 9 .   [5 ]   G . - S .   X ia,  e a l . ,   " DO TA lar g e - sc a le  d a tas e t   f o o b jec d e tec ti o n   in   a e rial  im a g e s, "   Pro c e e d in g o th e   IEE E   Co n fer e n c e   o n   Co m p u ter   Vi si o n   a n d   Pa tt e rn   Rec o g n it io n   ( CVP R) ,   2 0 1 8 ,   p p .   3 9 7 4 - 3 9 8 3 .     [6 ]   M .   Ev e rin g h a m ,   L .   V a n   G o o l,   C.   K.  W il li a m s,  J.  W in n ,   a n d   A .   Zi ss e r m a n ,   " T h e   p a sc a v isu a o b jec c las se ( v o c )   c h a ll e n g e , "   In ter n a ti o n a j o u rn a o c o mp u ter   v isio n ,   v o l .   8 8 ,   n o .   2 ,   p p .   3 0 3 - 3 3 8 ,   2 0 1 0 .   [7 ]   J.  De n g ,   W .   Do n g ,   R.   S o c h e r,   L .   L i,   K .   L i,   a n d   F .   F .   L i,   " Im a g e Ne t:   A   lar g e - sc a le  h iera rc h ica ima g e   d a tab a se , "   2 0 0 9   IE EE   C o n fer e n c e   o n   Co m p u ter   Vi sio n   a n d   Pa tt e rn   Rec o g n it i o n ,   M iam i,   F L ,   USA ,   2 0 0 9 ,   p p .   2 4 8 - 2 5 5 .     [8 ]   Y .   Su   a n d   C. - C.   J .   Ku o ,   " On   e x ten d e d   lo n g   sh o rt - term   m e m o r y   a n d   d e p e n d e n b id irec ti o n a r e c u rre n t   n e u ra l   n e tw o rk , "   Ne u ro c o mp u ti n g ,   v o l.   3 5 6 ,   p p .   1 5 1 - 1 6 1 ,   2 0 1 9 .   [9 ]   A .   Kriz h e v sk y ,   I.   S u tsk e v e r,   a n d   G .   E.   Hin to n ,   " Im a g e n e c l a ss i f ic a ti o n   w it h   d e e p   c o n v o l u ti o n a n e u ra n e tw o rk s,"   Co mm u n ica ti o n s o th e   ACM ,   v o l .   6 0 ,   n o .   6 ,   p p .   8 4 - 9 0 ,   2 0 1 7 .   [1 0 ]   T .   Yo u n g ,   D.  Ha z a ri k a ,   S .   P o ri a ,   a n d   E.   Ca m b ria,  " Re c e n T re n d i n   De e p   L e a rn in g   Ba se d   Na tu ra L a n g u a g e   P r o c e ss in g , "   in   IEE E   Co mp u t a ti o n a I n telli g e n c e   M a g a zin e ,   v o l .   1 3 ,   n o .   3 ,   p p .   5 5 - 7 5 ,   A u g .   2 0 1 8 .     [1 1 ]   Y .   S u ,   K .   F a n ,   N .   Ba c h ,   C. - C.   J .   Ku o ,   a n d   F .   H u a n g ,   " Un su p e rv i se d   m u lt i - mo d a n e u ra m a c h in e   tran sla ti o n , "   in   Pro c e e d in g o t h e   IEE E   Co n fer e n c e   o n   C o mp u ter   Vi sio n   a n d   P a tt e rn   Rec o g n it io n ,   2 0 1 9 ,   p p .   1 0 4 8 2 - 1 0 4 9 1 .     [1 2 ]   T .   N.  S a in a th ,   A .   M o h a m e d ,   B.   Kin g sb u ry ,   a n d   B.   Ra m a b h a d ra n ,   " De e p   c o n v o l u ti o n a l   n e u ra l   n e tw o rk f o L V CS R, "   2 0 1 3   IEE In ter n a ti o n a Co n fer e n c e   o n   Aco u stics ,   S p e e c h   a n d   S ig n a Pr o c e ss in g ,   V a n c o u v e r,   BC,  Ca n a d a ,   2 0 1 3 ,   p p .   8 6 1 4 - 8 6 1 8 .     [1 3 ]   H . - C .   S h i n ,   e a l . " De e p   Co n v o lu ti o n a Ne u ra Ne tw o rk f o Co m p u ter - A id e d   De tec ti o n CNN   A r c h it e c tu re s,   Da tas e Ch a ra c teristics   a n d   T ra n sf e L e a rn in g , "   in   IEE T ra n s a c ti o n s o n   M e d ica Im a g i n g ,   v o l.   3 5 ,   n o .   5 ,   p p .   1 2 8 5 - 1 2 9 8 ,   M a y   2 0 1 6 .     [1 4 ]   S .   Re n ,   K.  He ,   R.   G irsh ick ,   a n d   J.  S u n ,   " F a ste r - c n n T o w a rd re a l - ti m e   o b jec d e tec ti o n   w it h   r e g io n   p ro p o sa l   n e tw o rk s,"   IEE tra n sa c ti o n o n   p a tt e rn   a n a lys is  a n d   ma c h i n e   i n telli g e n c e ,   v o l .   3 9 ,   n o .   6 ,   p p .   1 1 3 7 - 1 1 4 9 ,   2 0 1 6 .   [1 5 ]   K .   He ,   G .   Gk io x a ri,   P .   Do l lar,  a n d   R .   G irsh ick ,   " M a sk   r - c n n , "   in   P ro c e e d in g o t h e   IEE i n ter n a t io n a l   c o n fer e n c e   o n   c o m p u ter   v isi o n ,   2 0 1 7 ,   p p .   2 9 6 1 - 2 9 6 9 .     [1 6 ]   J .   Re d m o n ,   S .   Div v a la,  R .   G irsh ick ,   a nd  A .   F a rh a d i ,   " Yo u   o n ly   lo o k   o n c e Un if ied ,   re a l - ti m e   o b jec d e tec ti o n , "   in   Pro c e e d in g o t h e   IEE E   c o n fer e n c e   o n   c o mp u ter   v isio n   a n d   p a t ter n   re c o g n i ti o n ,   2 0 1 6 ,   p p .   7 7 9 - 7 8 8 .     [1 7 ]   M .   J .   S h a f iee ,   B.   Ch y w l,   F .   L i,   a n d   A .   W o n g ,   " F a st  YO L O:  f a st  y o u   o n ly   lo o k   o n c e   sy ste m   f o re a l - ti m e   e m b e d d e d   o b jec d e tec ti o n   in   v id e o , "   a rXiv p re p ri n a rXiv:1 7 0 9 . 0 5 9 4 3 ,   2 0 1 7 .   [1 8 ]   J.  Re d m o n   a n d   A .   F a rh a d i,   " Yo lo v 3 A n   in c re m e n tal  im p ro v e m e n t, "   a rXiv p re p rin t   a rXiv: 1 8 0 4 . 0 2 7 6 7 ,   2 0 1 8 .   [1 9 ]   H.  L a w   a n d   J.  De n g ,   " Co rn e rn e t:   De tec ti n g   o b jec ts  a p a ired   k e y p o in ts, "   in   Pr o c e e d in g o th e   Eu ro p e a n   Co n fer e n c e   o n   Co m p u ter   Vi si o n   ( ECCV ) ,   2 0 1 8 ,   p p .   7 3 4 - 7 5 0 .     [2 0 ]   K.  Du a n ,   S .   Ba i,   L .   X ie,  H.  Qi,   Q.  Hu a n g ,   a n d   Q.  T ian ,   " Ce n tern e t:   Ke y p o in tri p lets  f o o b jec d e tec ti o n , "   in   Pro c e e d in g o t h e   IEE E   In ter n a t io n a l   C o n fer e n c e   o n   Co m p u ter   Vi sio n ,   2 0 1 9 ,   p p .   6 5 6 9 - 6 5 7 8 .     [2 1 ]   L .   Ch e n ,   G .   P a p a n d re o u ,   I.   K o k k in o s,  K.  M u r p h y ,   a n d   A .   L .   Yu il le,  " De e p Lab S e m a n ti c   Im a g e   S e g m e n tatio n   w it h   De e p   Co n v o lu ti o n a Ne ts,   A tro u Co n v o lu ti o n ,   a n d   F u ll y   Co n n e c ted   CRF s,"   in   IEE T ra n sa c ti o n o n   Pa tt e r n   An a lys is  a n d   M a c h i n e   In tell ig e n c e ,   v o l.   4 0 ,   n o .   4 ,   p p .   8 3 4 - 8 4 8 ,   1   Ap ril   2 0 1 8 .     [2 2 ]   T . - Y .   L i n ,   P .   D o l lar ,   R .   G ir s h ic k ,   K.   He ,   B .   Ha r i h a ra n ,   a n d   S .   Be l o n g i e ,   " F e a t u re   p y ra m id   n e t w o rk f o o b je c t   d e tec t i o n , "   in   Pr o c e e d i n g o f   t h e   I EE c o n fer e n c e   o n   c o m p u ter   v is i o n   a n d   p a t ter n   re c o g n it i o n ,   2 0 1 7 ,   p p .   2 1 1 7 - 2 1 2 5 .     Evaluation Warning : The document was created with Spire.PDF for Python.