I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m pu t er   E ng ineering   ( I J E CE )   Vo l.   1 6 ,   No .   1 Feb r u ar y   20 2 6 ,   p p .   216 ~ 229   I SS N:  2088 - 8 7 0 8 ,   DOI : 1 0 . 1 1 5 9 1 /ijece. v 1 6 i 1 . pp 2 1 6 - 2 2 9           216       J o ur na l ho m ep a g e h ttp : //ij ec e. ia esco r e. co m   AI SWLM :  artifi cia l int ellig enc e - b a sed sy stem f o w ildlife  mo nitoring       Arun G o v ind a n   K rish na n 1 J a y a r a ma n B hu v a na 2 ,   M irn a lin ee   T ha ng a   Na da T ha ng a   T h ai 3 ,   B ha ra t hk um a Azha g iy a   M a na v a la   Ra m a nu j a m 4     1 D e p a r t me n t   o f   C o m p u t e r   S c i e n c e ,   S I V ET  C o l l e g e ,   C h e n n a i ,   I n d i a     2 D e p a r t me n t   o f   C o m p u t e r   S c i e n c e   a n d   E n g i n e e r i n g ,   S r i   S i v a s u b r a ma n i y a   N a d a r   C o l l e g e   o f   E n g i n e e r i n g ,   C h e n n a i ,   I n d i a         Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Ma y   1 4 ,   2 0 2 5   R ev is ed   Sep   2 2 ,   2 0 2 5   Acc ep ted   No v   2 3 ,   2 0 2 5       De tec ti o n   a n d   re c o g n it io n   o f   wild   a n ima ls  a re   e ss e n ti a fo a n ima su rv e il lan c e ,   b e h a v i o m o n it o r in g   a n d   sp e c ies   c o u n ti n g .   In tr u sio n   o a n ima ls   a n d   t h e   d isa ste to   b e   c a u se d   c a n   b e   a v e rted   b y   t h e   ti m e ly   re c o g n it i o n   o f   in tru d in g   a n ima ls.  An   a rti f icia in tell ig e n c e - b a se d   s y ste m   fo r   wild li fe   m o n it o r in g   (AI  S WL M is  d e sig n e d   a n d   imp lem e n ted   o n   t h e   c a m e ra   trap   ima g e s.  Th e   c h a ll e n g e su c h   a d e tec ti n g   a n d   re c o g n izi n g   a n ima ls  o d iffere n siz e s,  sh a p e ,   a n g les   a n d   sc a le,  re c o g n izin g   t h e   a n ima ls  o sa m e   a n d   d iffere n sp e c ies ,   d e tec ti n g   t h e m   u n d e v a rio u il l u m in a ti o n   c o n d it io n s,  wi th   p o se   v a rian ts  a n d   o c c lu si o n   a re   a d d re ss e d   b y   id e n ti fy i n g   th e   o p ti m a we ig h ts  o th e   d e e p   lea rn i n g   a rc h it e c tu r e ,   AI  S WL M .   M o d e ls  we re   trai n e d   u si n g   G o ld   S tan d a rd   S n a p sh o S e re n g e t d a tas e with   ra n d o m   we ig h ts  a n d   t h e   b e st   we ig h ts  o m o d e we re   u se d   a in it ial  we i g h ts  f o trai n in g   t h e   a u g m e n ted   d a ta.  Th is   h a d o u b led   th e   p e rfo r m a n c e   in   term o m e a n   a v e ra g e   p re c isio n ,   wh ich   c a n   b e   in ter p re ted .   K ey w o r d s :   An im al  i n tr u s io n     C am er tr ap   im ag es    C SP Den s eNe   Dee p   l ea r n in g     PANet    T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   J ay ar am an   B h u v a n a   Dep ar tm en t o f   C o m p u ter   Scie n ce   an d   E n g in ee r in g ,   Sri  Siv a s u b r am an iy a   Na d ar   C o lleg o f   E n g in ee r i n g   Kala v ak k am ,   C h en n ai,   I n d ia    E m ail: b h u v a n aj@ s s n . ed u . in       1.   I NT RO D UCT I O N   R ec o g n izin g   an im als  ir r esp ec tiv o f   wild   o r   d o m esti is   es s e n tial  in   v ar iety   o f   ap p licatio n s   n am ely   s p ec ies  co u n tin g ,   s u r v eillan ce   o f   tr ess - p ass in g   o f   t h an im a ls ,   an d   m o n ito r in g   t h eir   b e h a v io r s   f o r   m an ag i n g   th em   ef f ec tiv el y .   B y   d etec tin g   th p r esen ce   o f   a n im als,  t h d is aster   ca u s ed   b y   t h eir   i n tr u s io n   c o u ld   b r ed u ce d .   Als o ,   th e   welf ar o f   t h an im als  is   m o s ess en tial  in   b alan cin g   th ec o s y s tem .   C o u n tin g   th e   an im als,  with   th eir   s p ec ies  m an u ally   i n   ap p licatio n s   lik e   ce n s u s   wi ll  b tim co n s u m in g   an d   ex p en s iv o p er atio n .   I n v o lv i n g   h u m an s   to   m o n ito r   th in tr u s io n   o f   an im als will b e   ted io u s   an d   r is k y .   Hu m an s   p er ce iv e ,   v is u alize   wh at  th ey   s ee   a n d   ac u p o n   ac co r d in g l y .   Hu m an   v is u al  r ec o g n itio n   s y s tem   p o s s ess e s   o b ject  co n s tan cy ,   ab ilit y   to   r ec o g n ize  o b j ec ac r o s s   d if f er en v iewp o in t   co n d itio n s   s u ch   as  o r ien tatio n ,   lig h tin g ,   an d   o b je ct  s ize  v ar iab ilit y .   W ca n   in t er p r et  th e n titi es  in   ea ch   s ce n e,   ir r esp ec tiv o f   th eir   s ize,   s ca le,   an g les,  r o tate d   o r   tr an s lated .   Sem an tic  m ea n in g   o f   im a g es  an d   v id e o s   ar e   u s ef u in f o r m ati o n   f o r   an y   s ce n i n ter p r etatio n   with   s ev er al  ap p licatio n s   in v o lv in g   s elf - d r iv in g   ca r s ,   n a v ig atio n   in   m o b ile  r o b o tics ,   s tr ee tr af f ic  o b s er v a tio n s ,   s o cc er   g am a n aly s is ,   s m ar r o o m   ca m er as,  m o n ito r i n g   o f   eld er ly .   T h e   d etec tio n   o f   a n im al  in tr u s io n   c an   b m o d elled   as o b ject  r ec o g n itio n   p r o b lem .   An im al  class if icatio n   an d   r ec o g n itio n   p la y   m ajo r   r o le  in   s u r v eillan ce ,   au to m atic  ca r   d r iv in g   to   p r ev en ac cid en ts ,   an im al  p o p u latio n   s u r v e y   f o r   en d an g e r ed   s p ec ies,  an im al  s u r v eillan ce .   T o   b alan ce   th wild life   ec o lo g y ,   m o n ito r in g   an d   s u r v eillan ce   will  b th in h er e n p a r o f   th e   s y s tem .   T h e r ar e   f ew   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         A I   S WL M:  a r tifi cia l in tellig e n ce - b a s ed   s ystem  fo r   w ild life  mo n ito r in g   ( A r u n   G.   K . )   217   s u cc ess f u wo r k s   to   m ain tain   th b io d iv e r s ity   o f   th b ir d s ,   wh er f o r   wild   an im al   m o n ito r in g   s u c h   s o p h is ticated   s y s tem   tech n iq u es  th at  h av b ee n   d ep lo y ed   h av f ew   in h er e n d r awb ac k s   s u ch   as  lack   in   r o b u s tn ess ,   co v er ag ar e a,   r e liab ilit y   o f   th eq u ip m en an d   th d elay   in   in f o r m in g   th d ec is io n s   to   th au th o r ities .   E ar ly   d ec is io n - m a k in g   s y s tem   s h o u ld   b in   p la ce   wh er ev er   we  h av h u m an   wild   co n f lict.  T h e   s o lu tio n   to   h a n d le  th is   is s u is   to   im itate  th co g n itiv f u n ctio n ality   o f   b r ain   i n   r ec o g n izin g   o b jects.  T h is   m o tiv ated   u s   to   in v esti g ate  d if f er en t   th eo r ies  t o   d esig n   n o v el  co m p u tatio n al  f r am ewo r k s   to   s o lv s ig n if ican t   v is u al  p er ce p tio n   task s .   T h er is   g r o win g   n ee d   f o r   AI - b ased   s y s tem s   th at  ca n   au to m atica lly   d etec an d   class if y   wild life   s p ec ies  in   r ea l - wo r ld   e n v ir o n m en ts   f o r   p r o a ctiv co n s er v atio n   a n d   to   ad d r ess   h u m an - a n im al  co n f lict.   W aim   to   d esig n   an   au to m atic  co m p u tatio n al  f r am ewo r k   t o   p r o v id e f f icien s o lu tio n s   f o r   an im al  r ec o g n itio n ,   p er f o r m ed   e f f o r tl ess ly   b y   h u m an   b ein g .   Sev er al  ch allen g es  in   an im al  d etec tio n   an d   r ec o g n itio n   ar e,   An im als  o f   d if f e r en s izes  ( s m all  an d   lar g e ) ,   Occ lu s io n ,   m u ltip le  s p ec ies  in   s am f r a m e,   an im al  lo o k in g   s im ilar   to   b ac k g r o u n d ,   p a r tially   v is ib le  an im als  with o u o c c lu s io n ,   co u n tin g   th e   n u m b er   o f   an im als  in   g iv e n   f r am e,   v a r io u s   illu m in atio n   co n d itio n s ,   with   p o s v ar ian t,  d etec tin g   m u ltip le  in s tan c es  o f   s am s p ec ies  an im als  in   s in g le  f r am e,   lo ca tin g   th d etec ted   a n im al  in   c lu tter ed   b ac k g r o u n d .   T h is   p ap er   p r esen ts   an   en d - to - en d   d ee p   lear n in g   b ased   ar tific ial  in tellig en ce - b ased   s y s tem   f o r   wild life   m o n it o r in g   ( AI   SW L M)   f o r   an im al  d etec tio n   f r o m   ca m er a   tr ap   im ag es.  T h n o v elty   o f   t h wo r k   is   in   th u s o f   tr an s f er   lear n in g   o n   y o u   o n ly   lo o k   o n ce   v e r s io n 5   ( YOL Ov 5 )   v a r ian ts   with   class - b alan ce d   au g m en tatio n   s tr ateg y   th at  s ig n if ican tl y   im p r o v es  p er f o r m an ce   in   ter m s   o f   m ea n   av e r ag p r ec is io n   ( m AP) ,   p r ec is io n ,   an d   r ec all  w h en   co m p ar e d   with   th ex is tin g   ap p r o ac h es o n   th e   Ser en g eti  d ataset.   An   ex ten s iv s et  o f   ex p e r im en ts   wer co n d u cted   to   i d en tify   b est s u itab le  m o d el  f o r   a n im al  d etec tio n ;   C las s   im b alan ce   is s u is   h an d led   b y   a p p ly in g   au g m e n tatio n   an d   th b est  weig h ts   ar u s ed   to   in itialize  th tr ain in g   o f   th en h an ce d   d ataset;  d etailed   q u alitativ an d   q u an titativ an aly s is   wer d o n o n   th p e r f o r m an ce   o f   th p r o p o s ed   s y s tem .     T h ar ticle  is   o r g an ized   as  f o l lo ws:   s ec tio n   2   d is cu s s es  th ex is tin g   s y s tem s   f o r   o b ject  d e tectio n   an d   class if icatio n   f o r   an im als.  Sectio n   3   p r o p o s es  AI - SW L ar ch itectu r an d   th d esig n   o f   its   f u n ctio n al  co m p o n en ts .   Sectio n   4   d is cu s s es  th im p lem en tatio n   r elate d   co n ce p ts   o f   AI - SW L M.   Sec tio n   5   p r o v id es  th e   p lan   o f   d if f er en t   ex p er im en ts s ec tio n   6   p r esen ts   th e   d etai led   q u alitativ e   an d   q u a n titativ an aly s is   o f   th e   r esu lts   an d   co m p a r is o n   f o llo w ed   b y   t h co n cl u s io n   in   s ec tio n   7 .       2.   SURVE O F   E XI ST I NG   W O RK   Hu m an s   p er ce iv v is u al  in f o r m atio n   th r o u g h   th r etin a ,   wh i ch   is   tr an s m itted   v ia  th o p tical  n er v to   th b r ai n ,   w h er e   it  is   in ter p r et ed   in to   o b jects  an d   s ce n es.  R e s ea r ch er s   h av e   f o u n d   th at   n e u r o n al  f ir in g   p atter n s   in   th in f e r io r   tem p o r al   co r te x   s tr o n g ly   co r r elate   with   s u cc ess f u o b ject  r ec o g n itio n   task s .   T h h u m an   v is u al  r ec o g n itio n   s y s tem   in clu d es  n eu r o n al   r ep r esen tatio n s   ca p ab l o f   p atter n   d is cr im in atio n .   Ar tific ial  i n tellig en ce   ( AI ) ,   a   d o m ai n   o f   co m p u ter   s cien ce ,   h as  d ev elo p ed   m ec h an is m s   to   in co r p o r ate  s u c h   i n tellig en ce   th r o u g h   alg o r ith m s   th at  au to m ate  h u m an - lik p er ce p tio n   a n d   o b ject  r ec o g n itio n .   I n co r p o r atin g   th n eu r o n   r ep r esen tatio n   p atter n s   o f   th h u m an   b r ain   i n to   co m p u tatio n al   alg o r ith m s   ca n   lead   to   ef f icien o b ject  r ec o g n itio n .   Ob ject  d etec tio n   r em ain s   o n e   o f   th m o s ch allen g in g   task s   in   co m p u ter   v is io n ,   r e q u ir in g   i d en tific atio n   o f   o b ject  in s tan ce s   v ar y in g   in   c o lo r ,   s h a p e,   lo ca tio n ,   p o s e,   illu m in atio n ,   an d   b ac k g r o u n d .   I s er v es  as  th f o u n d atio n   f o r   ap p licatio n s   s u ch   as  s eg m en tatio n ,   ca p tio n i n g ,   o b ject  tr ac k in g ,   an d   s ce n u n d er s tan d i n g .   R ea l - wo r ld   a p p licatio n s   in clu d au to n o m o u s   v eh icles  an d   s u r v eillan ce   s y s tem s   [ 1 ] .   E ar lier ,   m ac h in lear n in g   alg o r ith m s   wer wid ely   u s ed   f o r   o b ject  d etec tio n .   T h w o r k   in   [ 2 ]   f o c u s es   o n   ef f icien m u ltis ca le  f ea tu r es  f o r   im ag r etr iev al.   Ho wev er ,   s h ap f ea tu r es  o f ten   s tr u g g le  u n d e r   v ar y in g   s h ad o ws  an d   illu m in atio n .   E x tr ac tin g   ed g es  in   wild life   im a g er y   r em ai n s   d if f icu lt.  Mu lti - r eso lu tio n   f ea tu r es   [ 3 ]   ar well  s u ited   f o r   d etec tin g   o b jects  o f   v ar y in g   s h ap es.  D o m ain   g e n er aliza tio n   ch allen g es  ar ad d r ess ed   in   o b ject  d etec tio n ,   esp ec ially   i n   wild life   d atasets   wh er en v ir o n m en tal  v ar iatio n   af f ec ts   th p er f o r m a n ce   [ 4 ]   T h ev o lu tio n   o f   d ee p   lear n in g   alg o r ith m s   an d   s u p p o r ti n g   h ig h - en d   s y s tem s   h as  s i g n if ican tly   ad v an ce d   c o m p u ter   v is io n .   V ar io u s   d ee p   lear n i n g   tech n iq u es   [ 5 ] [ 1 1 ]   n o allo au to m atic  ex tr ac tio n   o f   f ea tu r es  f r o m   im ag es  an d   v i d eo s .   Prio r   wo r k   o n   ca m e r tr ap   im ag es  ca n   b b r o ad l y   class if ied   in to   two   ca teg o r ies:   ap p licatio n   o f   p r e - t r ain ed   m o d els an d   u s o f   o b je ct  d etec tio n   an d   r ec o g n itio n   m o d els.    n o tab le   ex am p le   is   m u lti - task   g en er ativ e   ad v e r s ar ial  n etwo r k   ( MT GAN)   [ 1 2 ] ,   a n   en d - to - e n d   f r am ewo r k   d ev elo p ed   to   d etec s m all - s ca le  o b jects,  in   wh i ch   g en er at o r   u p s ca les  im ag r eso lu tio n   an d   a   d is cr im in ato r   s im u ltan eo u s ly   ev alu ate  a u th en ticity   an d   th p r esen ce   o f   th o b ject.   T h is   is   ev alu ated   o n   co m m o n   o b jects  in   c o n tex t   ( C OC O)   an d   W I DE R   FAC E   d atasets ,   th eir   m o d el   u s ed   R esNet5 0   as  its   b ac k b o n e   an d   in co r p o r ated   r eg r ess io n   m o d u le  to   r ef in d etails.  T h is   m u lti - task   s tr u ctu r h elp s   m ain tain   o b ject - lev el   clar ity   in   lo w - r eso lu tio n   r eg io n s ,   m ak in g   it we ll - s u itab le  f o r   wild life   m o n ito r in g   ap p licatio n s .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   1 6 ,   No .   1 Feb r u ar y   20 2 6 :   2 1 6 - 229   218   Ma s k   R eg io n - b ased   co n v o l u tio n al  n eu r al  n etwo r k   ( R - C NN)   [ 1 3 ] ,   d e r iv ed   f r o m   f aster   R - C NN,   h as   b ee n   u s ed   f o r   ca ttle  d etec tio n   an d   c o u n tin g ,   s u cc ess f u lly   h a n d lin g   o cc lu s io n   an d   o v er lap   b y   lev e r ag in g   b in ar y   m ask   class if icatio n .   Simp ler   C NN - b ased   m o d els  h av b e en   u s ed   to   class if y   im ag es  i n to   m am m als  an d   r ep tiles   [ 1 4 ] ,   o r   m o r g r an u la r ly   in to   Sn ak es,  L izar d s ,   an d   T o ad s /Fro g s   [ 1 5 ] .   C am er tr a p s   ar wid ely   u s ed   to   ca p tu r wild life   im ag es  f o r   p o p u latio n   s u r v ey s .   Ho wev er ,   th ese  tr ap s   also   r ec o r d   h u m an s   an d   f alse  tr ig g er s   d u to   win d   o r   v eg etatio n   [ 1 6 ] .   T o   class if y   s u ch   im ag es  i n to   wild life ,   h u m an ,   o r   em p t y ,   d ee p   lear n in g   ap p r o ac h   u s ed   Alex Net - 9 6   to   s eg m en f o r e g r o u n d   o b jects  an d   ad d r ess   class   i m b alan ce   b y   c o lo r   au g m en tatio n ,   ac h iev in g   7 3 . 1 3 % r ec all.   T wo - lev el  class if icatio n   o n   t h Sn ap s h o Ser en g eti  d ataset  was  p er f o r m ed   in   [ 1 7 ] .   T h e   f ir s s tag e   was  b in ar y   class if ier   f o r   an im al  p r esen ce ,   f o llo wed   b y   m u lti - class   cla s s if icatio n   in to   2 6   s p ec ies  u s in g   p r e - tr ain ed   m o d els  s u ch   as  Alex Net,   v is u al  g eo m etr y   g r o u p   ( VGG) ,   Go o g L eNe t,  an d   v ar io u s   R esNet  v er s io n s ,   ac h iev in g   9 3 . 6 with   en s e m b le  m eth o d s .   T h is   wo r k   u s ed   th s am d ataset  as  o u r s   b u f o c u s ed   o n   class if icatio n ,   n o o b ject  d ete ctio n .   Oth er   ef f o r ts   u s ed   p r e - t r ain ed   m o d els  [ 1 8 ]   lik Den s eNe t2 0 1 ,   I n ce p tio n - R esNet - V3 ,   an d   NASNetM o b ile  to   class if y   3 5   an im al  s p ec ies  in   th Par k s   C an ad d ataset.   Au g m en tatio n   tech n iq u es  h elp e d   m itig ate  c lass   im b alan ce ,   im p r o v in g   p er f o r m a n ce   to   7 1 . 2 af ter   e n s em b le.   Similar ly ,   R esNet - 1 8   was  em p lo y ed   in   [ 1 9 ]   to   class if y   an im als  ac r o s s   5 8   class es  f r o m   ca m er tr ap   im ag es  tak en   in   ten   U. S.  s tate s .   Pre - tr ain ed   m o d e ls   lik I n ce p tio n V3 ,   Mo b ile Net,   an d   VGG - 1 6   wer u s ed   f o r   class if y in g   s ix   an im al  ca teg o r ies  [ 2 0 ] .   r o b u s t,  lo ca tio n - in v ar ia n class if i er   tr ain ed   o n   d atasets   lik Fl i ck R   an d   iNatu r alis was  p r o p o s ed   in   [ 2 1 ] .   Usi n g   Ker as - R etin aNe t,  th eir   m o d els   ac h iev ed   m AP  o f   8 2 . 3 3 % 8 8 . 5 9 wh en   test ed   o n   Sn ap s h o Ser en g eti.   Facial  d etec tio n   u s in g   Fas ter - R C N was  ex p lo r ed   in   [ 2 2 ]   u s in g   th a n im al  f ac e   d atab ase  ( AFD) ,   ac h iev in g   8 7 . 0 3 % a cc u r ac y .   YOL Ov 2   was  u s ed   in   [ 2 3 ]   f o r   s p ec ies r ec o g n itio n .   R ec en s u r v ey s   an d   m o d el  in n o v atio n s   em p h asize  th g r o win g   r o le  o f   d ee p   lear n in g   in   ec o lo g ical   m o n ito r in g .   Fo r   in s tan ce ,   Z h a o   et  a l.   [ 2 4 ]   p r o v i d es  d etail ed   r ev iew  o f   C NN - b ased   wil d life   class if icatio n   f r o m   ca m er tr a p   im ag es,  h ig h lig h tin g   ch allen g es  s u ch   as  clas s   im b alan ce   an d   f e atu r ex tr ac tio n   in   u n co n tr o lled   e n v ir o n m en ts .   B h attac h ar jee  et  a l.   [ 2 5 ]   p r o p o s es  YOL O - b ased   ar ch itect u r es  cu s to m ized   f o r   an im al  d etec tio n   u n d er   v ar y in g   en v ir o n m en tal  co n d itio n s ,   s h o win g   im p r o v ed   d etec t io n   p r ec is io n   an d   r o b u s tn ess   ac r o s s   r ea l - wo r ld   d atasets .         3.   M E T H O D   T h p r o p o s ed   ar tific ial  in tellig en ce - b ased   s y s tem   f o r   wild life   m o n ito r in g   ( A I   SW L M)   will  r ec o g n ize   th ca teg o r y   o f   th s p ec ies  i n   th g i v en   ca m e r tr ap   im a g e.   T h o b ject  o f   in ter est  is   th an im al,   wh ic h   is   d etec ted   b y   t h p o p u lar   a n d   e f f icien o b ject  d etec tio n   alg o r ith m   YOL Ov 5 .   T h e   im ag es   o f   d if f er en t   an im als  ca p tu r ed   in   tr ap   ca m e r as  u n d er   d if f er en lig h tin g   co n d itio n s   ar f ed   to   tr ain   th p r o p o s ed   o b ject  d etec tio n   m o d el  f o r   l o ca lizatio n   o f   a n i m al  s p ec ies,  r ec o g n itio n   o f   s p ec ies  an d   co u n tin g   o f   s p ec ies.   T h is   will  en ab le   u s   to   m o n ito r   an im al   m o v em en ts ,   lo ca tio n s   an d   f u r th er   n o tify   th r esp ec tiv f o r est  d e p ar tm e n ts   r eg ar d i n g   th ei r   m o v em en n ea r   ag r icu ltu r al  f ield s   an d   r esid en tial  ar ea s .   Statis t ics  o f   an im als  ca n   b u s ed   b y   th f o r est  d ep ar tm en t to   m ain tain   th e   ec o s y s tem .   T h p r o p o s ed   AI   SW L ac ce p ts   th in p u ts   in   th f o r m   o f   im ag es  ca p tu r ed   an d   ap p lies   th YOL OV5   ar ch itectu r th at   h as  b ac k b o n s y s tem ,   n ec k   an d   d etec tio n   h ea d   to   lo ca lize  an d   class if y   th e   an im al.   T h in p u im ag es  in   b atch es  will  b p r o ce s s ed   th r o u g h   th b ac k b o n e,   n ec k   an d   t h h ea d   o u tp u ts   th e   lo ca lized   as  th e   wild   an im als  alo n g   with   th eir   n am es  an d   c o u n t.     T h e   p r o p o s ed   AI   SW L s y s tem   co m b in es   s tan d ar d   d ee p   lear n in g   c o m p o n en ts   s u ch   as  th YOL Ov 5   d etec tio n   a r ch itectu r with   n o v el  en h an ce m en ts   in clu d in g   two - s tag tr ain in g   p r o ce d u r u s in g   p r etr ain ed   weig h ts ,   class - b alan ce d   d ata  au g m en tatio n ,   a n d   ev alu atio n   ac r o s s   d if f e r en m o d el  co n f ig u r atio n s .   T h n o v e lty   is   in   th e   s tr u ctu r ed   au g m e n tatio n   p i p elin an d   r eu s in g   b est - tr ain ed   weig h ts   to   im p r o v e   g en e r aliza tio n   o f   t h wild life   d etec tio n   m o d el  c h allen g es,  in clu d in g   p o o r   illu m in atio n ,   clu tter ed   b a ck g r o u n d s ,   an d   d i f f er en t sp ec i es.   T h f u n ctio n al  co m p o n en t s   o f   AI   S W L an d   th id en tify in g   th b est  s u itab le  m o d el  f o r   d etec tio n   is   s h o wn   in   Alg o r ith m   1   an d   Fig u r 1 .   T h wo r k in g   o f   f u n ctio n al  c o m p o n en ts   is   elab o r ated   in   th e   f o llo win g   3   s u b s ec tio n s .     Alg o r ith m   1 .   Ar tific ial  in tellig en ce - b ased   s y s tem   f o r   wild life   m o n ito r in g   ( AI   SW L M)   Input:   -   Training: Wildlife images, labels, bounding box coordinates   -   Testing: Images   Output:   -   Recognized objects, labels, bounding box coordinates, counted species   Step 1: Let X ← Original imbalanced training dataset with labels and bounding boxes   Function Main ()   1. WLM_O ← WLM(X)   2. WLM_A_RW ← WLM (X_Enhanced with random weights)   3. WLM_A_BW ← WLM (X_Enhanced with best weights of WLM_O)   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         A I   S WL M:  a r tifi cia l in tellig e n ce - b a s ed   s ystem  fo r   w ild life  mo n ito r in g   ( A r u n   G.   K . )   219   4. WLM_O_Count ← Counting_Species (WLM_O)   5. WLM_A_RW_Count ← Counting_Species (WLM_A_RW)   6. WLM_A_BW_Count ← Counting_Species (WLM_A_BW)   7. AI_SWLM ← Performance_comparison (WLM_O, WLM_A_RW, WLM_A_BW)   Return: AI_WLM model   Function Augment(X)   1. X_Enhanced ← manual augment   2. X_imglevel ← Image_level_augment(X_Enhanced)   3. X_pixellevel ← Pixel_level_augment(X_Enhanced)   4. X_augmented ← X_imglevel + X_pixellevel   Return: X_augmented   Function WLM(X)   1. X.remove_duplicates ()   2. X.remove_corrupted ()   3. X_preprocess ← X.reshape (640, 640)   4. X_augmented ← Augment(X_preprocess)   5. X_featuremap ← CSP_Network (X_augmented)   6. X_featuremap ← Spatial_Pyramid_Pooling (X_featuremap)   7. X_feature_Pyramid ← PANet(X_featuremap)   8. X_PANet ← X_feature_Pyramid   9. (Class_prob, Obj_scores, b_boxes) ← Detection_Head(X_PANet)   Note:   -   Class_prob: class probabilities   -   Obj_scores: objectness scores   -   b_boxes: bounding boxes   Return: WLM model           Fig u r 1 .   Ov e r v iew  o f   p r o p o s ed   AI   SW L M       3 . 1 .     F e a t ure  ex t r a ct io n net w o rk   T h f ea tu r e x tr ac tio n   p ar t   o f   th ar ch itectu r will  s er v e   as  t h b ac k b o n a n d   h elp   to   e x tr a ct  f ea tu r es  f r o m   th in p u im ag es.  T h B ac k b o n o f   th AI   SW L h as  th cr o s s   s tag p ar tial  n et wo r k   ( C SP Net)   an d   s p atial  p y r am id   s p o o lin g   as  th m ajo r   f u n ctio n al  u n its   th at  ex tr ac th f ea tu r es  f r o m   th e   in p u im a g es.   T h e   r ich   f ea tu r es  o f   th e   wild life   s p ec ies  in   ea ch   f r a m will  b ex tr ac ted   u s in g   lig h tweig h n etwo r k   ca lled   C SP Ne t,  wh er th f ea tu r m a p   is   d iv id e d   in to   h alv es  an d   ar co m b in e d   af ter   p ass in g   th e m   th r o u g h   d if f e r en t   lay er s .   Similar ly ,   th g r ad ien t   in f o r m atio n   is   also   m ad to   f lo th r o u g h   d if f e r en p ath s   a n d   ar co n ca ten ated   an d   tr an s itio n ed   w h ile  p ass in g   d u r in g   th e   b ac k   p r o p ag at io n .   T h b asic  b u ild in g   b lo c k   o f   th is   b ac k b o n s tr u ctu r is   d en s b lo ck ,   wh ic h   will  h av s ev er al  d en s lay er s   in   it.  I n   d e n s b lo ck   th e   in p u o f   o n d en s lay er   will  b th co n ca ten atio n   o f   p r e v io u s   d en s lay er s   o u tp u an d   its   in p u t.  T h is   ar r an g em en will  h elp   in   ac cu m u latin g   k n o wled g f r o m   all  o f   th e   p r ev i o u s   lay er s .   Mu ltip le  d en s b lo ck s   wi ll  b s ep ar ated   b y   tr an s itio n al  lay er s .   T h tr an s itio n al  lay er   h as  s et  o f   co n v o lu t io n al  lay er s   an d   an   av er a g p o o lin g   lay er   o f   1 × an d   2 × 2   r esp ec tiv ely .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   1 6 ,   No .   1 Feb r u ar y   20 2 6 :   2 1 6 - 229   220   C SP Ne is   m ad u p   o f   p ar tial  Den s eNe b lo ck   a n d   Par tial  tr an s itio n al  lay er s .   Par tial  Den s eNe b lo ck   will  d iv id th f ea tu r e   m ap   i n to   two   s ay   f i   an d   f j   f r o m   t h b ase  lay er ,   wh er o n h alf   f i   wi ll  p ass   th r o u g h   t h d en s b lo ck   an d   th o t h er   h alf   will  b co n ca ten ated   with   th in p u o f   tr an s itio n al  la y er .   I n   th p ar tial  tr an s itio n al  lay er s ,   th f ir s lay er   ac ce p ts   th o u tp u t   o f   its   p r e v io u s   p ar tial  d en s b lo c k   as  in p u t.  T h e   o u t p u o f   th tr an s itio n al  la y er   is   n o co n ca ten ated   with   th e   o th e r   h alf   o f   th e   f ea tu r m a p   f j   an d   s er v ed   to   th e   n ex t   tr an s itio n al  lay er .   T h C SP N et  with   it s   h ier ar ch ical  f ea tu r f u s io n   ap p r o ac h   will  s tr en g th en   th lear n in g   ab ilit y   b y   g iv in g   th in n er m o s lay er s   with   th f ea tu r es  ex tr ac ted   f r o m   th ea r ly   d en s lay er s .   Du to   its   p ar tial  co n n ec tio n s ,   C SP Net  e x tr ac ts   v er y   d iv e r s if ied   s et  o f   f ea tu r es  th at  will  h elp   to   d is cr im in ate  ag ain s th e   wild life   o f   s am an d   d if f er e n s p ec ies.   T h s p atial  p y r am i d   p o o lin g   ( SP P)  in   th b ac k b o n s tag o f   YOL OV5 ,   is   v ar ian o f   B ag   o f   W o r d s   ( B o W )   m o d el  r em o v es  th lim itatio n   o f   C o n v o lu tio n al  lay er s   wo r k in g   with   f ix ed   s ized   in p u ts .   T h is   ch ar ac ter is tic  o f   th SP m ak es  th m o d el  s ca le  in v ar ian a n d   av o i d s   o v er f itti n g .   T h o u t p u f r o m   C SP Net  is   p ass ed   to   SP b ef o r th f ea t u r es  ar s en to   th Nec k   p h a s o f   th n etwo r k .   SP m ak es  m u ltip le  co p ies  o f   th f ea tu r es  an d   ap p lies   m ax p o o lin g   o f   d if f er en t   s ized   k e r n e ls   an d   c o n ca ten ated   th em   an d   ca n   g e n er ate  o u tp u t   o f   f ix e d   len g th   ir r esp ec tiv o f   th in p u t size  u s in g   t h m u lti - l ev el  s p atial  b in s .     3 . 2 .     F e a t ure  py ra m id pa t h a g g re g a t io n net wo rk   ( P ANe t )   T h n e x s tep   in   o b je ct   d e t ec t io n   o f   an im a l s   is   th co n s tr u c tio n   o f   f ea tu r p y r am i d s   b y   p a th   ag g r eg at io n   n e two r k   ( P A Ne t)   in   th e   n e ck   s ta g e   o f   Y OL O V5 .   P A Ne p er f o r m s   th e   in s t an ce   s eg m en ta tio n   th a s er v e s   a s   th n e ck   p ar t   o f   th e   s in g le   s tag o b je ct   d e tec t i o n   m o d e l.  T h e   p u r p o s e   o f   th e   f ea tu r e   p y r a m id   i s   to   g en er al iz th e   m o d e o n   o b jec t   s ca lin g   an d   to   s eg m en t   an im a in s t an c es   i n   th e   ca m er tr ap   im ag e s   b y   m ain ta in in g   th ei r   s p a ti al  in f o r m at io n .   T h m o d e n e ed s   to   d ete ct   th s am w il d l if s p ec ie s   in   d i f f er en t   s iz e s   an d   s c al es .   T h i s   f ea tu r e   p y r am id   i s   d e s ig n ed   to   ex t r ac m u lt i - s c al f ea tu r e   m ap s   an d   p er f o r m s   w el o n   u n s e en   o r   h id d en   d a ta.   T h e   r e aso n   wh y   PA Ne t’ s   ch o s en   i s   b ec au s it  h e lp s   in   p r o p er   lo c al iza t io n   o f   p ix el s   f o r   m a s k   f o r m at io n .   P AN et  h elp s   in   b o t to m - u p   p ath   a u g m e n ta tio n ,   ad ap t iv f ea tu r p o o li n g ,   f u l ly   co n n ec te d   f u s io n .   Featu r es  will  f lo v ia   b o th   b o tto m - u p   an d   to p - d o wn   p ath way s   th at  wo r k   ar o u n d   t h s p atial   r eso lu tio n   b ef o r s en d in g   th e m   f o r   p r ed ictio n   s tag o f   th n etwo r k .   T h B o tto m - u p   n etwo r k   u s es  R es Net  ar ch itectu r e,   th r o u g h   wh ic h   th f ea tu r es  f lo w,   th at  h elp s   in   s em an tic  d etec tio n   an d   r ed u ce s   th s p atial  d im en s io n   in to   h alf .   T h to p - d o wn   f lo w,   u p   s am p les  an d   au g m en ts   th p r ev i o u s   lay er s   o u tp u an d   p r o p a g ates th f ea tu r es th at  ar s em an tically   s ig n if ican t.     3 . 3 .     O bje c t   lo ca liza t io n a nd   predict io n us ing   det ec t io n h ea d     T h th ir d   s tag o f   Pro p o s ed   AI   SW L is   th h ea d   o f   YOL OV5 ,   wh ich   p r ed icts   th b o u n d in g   b o x   co o r d in ates,  o b jectless   s co r alo n g   with   th lab el  o f   th p r ed icted   an im al.   I ap p lies   an ch o r   b o x es  o n   f ea tu r es   m ap s   f r o m   PANet  an d   g en e r at es  f in al  o u t p u v ec to r s   with   cl ass   p r o b ab ilit ies,  o b jectless   s co r es,  an d   b o u n d in g   b o x es.  Fr o m   t h d etec ted   a n im als,  th c o u n t   o f   th e   s p ec ies  b elo n g in g   to   th e   s am o r   d if f e r en wild life   s p ec ies   in   th s ce n is   p r o ce s s ed   wh ich   ca n   b co m m u n icate d   to   t h au th o r ities   co n ce r n ed .   T h e   d etec tio n   h ea d   will  h av 3   lay er s   th at  ac ce p th f ea tu r m a p s   o f   s izes  n am ely ,   8 0 × 8 0 ,   4 0 × 4 0   an d   2 0 × 2 0   r esp ec tiv ely   to   d etec t   th an im als  o f   d if f er en s izes.  T h ese  d etec tio n   lay er s   g en er ate  an   o u tp u v ec to r   with   p r e d icted   b o u n d i n g   b o x   co o r d in ates,  class   p r o b ab ilit y   an d   ca teg o r y   o f   th a n im al  p r e d icted .       4.   I M P L E M E NT A T I O   4 . 1 .     Da t a s et   d escript io   Sn ap s h o Ser en g eti  is   o n o f   t h wo r ld s   lar g est  ca m er tr ap   p r o jects  with   7 . 1   m illi o n   im a g es  ac r o s s   1 2   s ea s o n s .   I n   th o s 7 . 1   m il lio n   im ag es,  o v er   7 6 o f   i m ag es  wer em p ty .   Ser en g et Natio n al  Par k   in   T an za n ia  is   b est  k n o wn   f o r   t h m ass iv an im al  m ig r atio n s   o f   W ild eb ee s t,  Z eb r th at  d r iv th cy cle  o f   its   d y n am ic  ec o s y s tem .   T h m o s co m m o n   wild life   s p ec ies  in   th d ataset  ar W ild eb ee s t,  Z eb r an d   Gaz elle   T h o m p s o n s .   T o tally   2 2 5   ca m er as  wer d e p lo y ed   to   ca p tu r th wild life   im ag es  in   Ser e n g eti  Natio n al  Par k ,   T an za n ia,   E ast  Af r ica.   C itizen   v o lu n teer s   h av b ee n   in v o lv e d   in   th is   p r o ject  to   an n o tate  th im ag es  th at  h av e   4 8   class es  o f   wild life   s p ec ies  in   it.  T h lab elled   d ataset  n am ed   Go ld   Stan d ar d   Sn a p s h o Ser en g eti  with     4 6   class es  is   u s ed   in   th is   wo r k   f o r   s p ec ies  d etec tio n   an d   r e co g n itio n .   B o u n d in g   b o x   c o o r d in ates  ar o u n d   ea c h   an im al  in   ca m er a   tr ap   im ag e   ar p r o v id ed   with   th d ata  s et .     4 . 2 .     Da t a   pre - pro ce s s ing   a nd   a ug m ent a t io   T h Go ld   Stan d ar d   Sn a p s h o t   Ser en g eti  h as  th e   wid th ,   h ei g h t,       an d      o f   th b o u n d in g   b o x es  f o r   ea ch   o f   t h in s tan ce   o f   a n im als  p r esen in   an   im ag e.   As  th f ir s s tep   o f   p r e - p r o ce s s in g ,   th ese  m ea s u r es  o f   th b o u n d in g   b o x   co o r d in ates  ar co n v er t ed   in to   ,   wid th   an d   h eig h t.  7 0 o f   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         A I   S WL M:  a r tifi cia l in tellig e n ce - b a s ed   s ystem  fo r   w ild life  mo n ito r in g   ( A r u n   G.   K . )   221   im ag es  in   th d ataset  ar u s e d   f o r   tr ain in g   th s p ec ies  d etec tio n   m o d el,   wh er 2 0 o f   im ag es  ar u s ed   f o r   v alid atio n   an d   1 0 % o f   im ag es  ar u s ed   f o r   test in g .     Data s et  im ag es  wer in   d if f er en s izes,  s o   th ey   wer co n v e r ted   in to   s tan d ar d   im ag s i ze   o f   6 4 0 ,   6 4 0 .   Data   clea n in g   o p er atio n s   wer p er f o r m e d   to   r em o v t h d u p licate,   co r r u p a n d   u n u s ed   im ag es.  Alo n g   with   th at,   th im ag es  f o r   wh ich   th lab el  an d   an n o tatio n s   ar n o g iv en   wer r em o v ed   f r o m   th d ataset.   Few   im ag es  with   m is m atch ed   f ile n am es  h av e   also   b ee n   r em o v ed   f r o m   t h d ataset  as  a   p ar t   o f   d ata  clea n s in g .   Ad d itio n al  im ag es  with   lab els  n am ely   s co u g u ar d ,   jeep ,   tr u ck s ,   r o ck s ,   s k y   an d   im ag es  with o u an im als  ar r em o v ed   f r o m   th d ataset.   Au g m en tatio n   is   th p r o ce s s   o f   ad d in g   n ew  lear n in g   s am p les  eith er   f r o m   th ex is tin g   d ata  o r   b y   g en er atin g   n ew  s y n th etic  d ata   th at  in cr ea s es  th s ize  o f   th d ataset  to   en h an ce   th lear n in g   o f   th m o d el  an d   h en ce   en h an ce   th p e r f o r m an ce   with   b etter   ac cu r ac y .   As  o n o f   th r eg u lar izatio n   tech n iq u es,  d ata   au g m en tatio n   av o id s   m o d el  o v er f itti n g   b y   in tr o d u cin g   d iv er s s et  o f   lear n in g   i n s tan ce s .   Sev er al  d ata  au g m e n tatio n s   tech n iq u es  h av b ee n   d e v el o p ed   to   ac h iev b etter   p er f o r m an ce   in   co m p u ter   v is io n   p r o b lem s ,   t h at  ca n   b e   ca teg o r ized   in to   i m ag lev el  an d   at  p ix el  lev e au g m en tatio n ,   to   im p r o v t h lear n in g   ab ilit y   a n d   to   in c r ea s th v ar ian ce   i n   th tr ain in g   d ata.   At  th p ix el  lev el  th p r o p o s ed   AI   SW L s y s tem   p er f o r m s   b asic  lin ea r   an d   a f f in tr a n s f o r m atio n s   n am el y   th f li p p in g ,   r o tatio n ,   clip p in g ,   ad ap tiv s ca lin g   an d   m o d if y i n g   th b r ig h t n ess   an d   co n tr a s d ata  au g m en tatio n s .   At  th im ag lev el,   t h p r o p o s ed   s y s tem   em p lo y s   co p y - p aste,  letter b o x   to   m ain tain   asp ec r atio   an d   m ix - u p ,   m o s aic  m eth o d s   f o r   d ata   au g m en tatio n .   C u m ix   a n d   m o s aic  m eth o d s   co m b in 2   a n d   4   im ag es   r esp ec tiv ely   to g eth e r   to   g en er ate   a   n ew  lear n in g   s am p le.   I n   th Go ld   Stan d ar d   Sn ap s h o t   Ser en g eti  d ataset,   it h as b ee n   o b s er v ed   th at  t h n u m b er   o f   i m ag es in   a   f ew  o f   t h class es  is   n o s u f f icien to   tr ain   o b ject  d etec t io n   an d   r ec o g n itio n   m o d el,   s in ce   th d ataset  is   im b alan ce d .   T h g r ea ter   n u m b er   o f   s am p les  ar f o u n d   in   th class   W ild   b ea s t,  an d   v er y   a   s m aller   n u m b e r   o f   s am p les  ar f o u n d   in   class es  n am ely   Har e,   W ater   b u ck ,   Ver v et  Mo n k ey ,   a n d   L e o p a r d   R h in o ce r o s .   T o   en h an ce   t h v ar ia n ce   o f   th e   tr ain in g   d ata,   im ag a u g m e n tatio n   is   th b est  ap p r o ac h   b ef o r e   ap p ly in g   an y   d ee p   lear n in g   f r am ewo r k .   Ap ar f r o m   th e   ab o v tech n iq u es,   th e   p r o p o s ed   AI   SW L also   au g m en ts   th e   d ataset  with   n ew  im ag es  tak en   f r o m   th web   to   f o r m   en h an ce d   d ata s et.   T h is   i s   d o n to   o v er co m th d ata  im b alan ce   p r o b lem   ac r o s s   all  th cla s s e s .   T h ese  m an u ally   au g m en ted   i m ag es  o f   th en h an ce d   d atase ar an n o tated   an d   th b o u n d in g   b o x   co o r d in ates   ar th e n   u s ed   b y   th e   p r o p o s ed   s y s tem   d u r in g   tr ain in g .   T h en h a n ce d   d ataset   was  s p lit  in to   3   p ar ts   in   th s am p r o p o r tio n   as  th at  o f   th e   o r ig in al  d ataset  an d   u s ed   f o r   t r ain in g ,   v alid atio n   an d   test in g   th an im al   o b ject  d etec tio n   an d   r ec o g n itio n   m o d e l,  AI   SW L M.   AI   SW L m o d el   is   d ev el o p e d   a n d   t r ai n ed   in   a   NV I D I A   G eF o r ce   R T X   2 0 8 0   GPU   1 1 GB   s y s tem   w it h   C UDA  v e r s i o n   9 . 1   u s in g   P y T o r c h   v e r s i o n   1 . 7 . 1   an d   Py th o n   v e r s i o n   3 . 6 . 1 0 .   T h e   m o d e ls   we r e   t r ai n ed   u s i n g   s to c h asti g r ad ie n d es ce n ( S GD)   wit h   a n   in iti al  l ea r n i n g   r at o f   0 . 0 1   a n d   m o m e n t u m   o f   0 . 9 3 7 .   L o s s   was   co m p u te d   u s i n g   GI o f o r   b o u n d i n g   b o x   r e g r ess i o n   a n d   b in a r y   c r o s s - e n t r o p y   f o r   cl ass i f ic at io n   a n d   o b je ct n ess .   W h av ch o s e n   YOL Ov 5   f o r   its   s p ee d   a n d   a cc u r ac y   in   r ea l - tim o b jec d et ec ti o n   tas k s   a n d   h e n c s u it a b le   f o r   d e p l o y m en i n   wil d l if s u r v eil lan ce .   C SP N et   e n h a n c es  t h e   l ea r n in g   ca p a b i lit y   b y   e n a b li n g   f e at u r r e u s e   a n d   g r a d ie n t   f lo w.   PAN et  h e lp s   t o   r etai n   s p ati al  f ea t u r es   a n d   i m p r o v e   l o c ali za t io n   in   c lu tte r e d   wil d li f s c e n es .   T o   ad d r ess   s e v e r e   c lass   im b ala n c e   i n   t h S er e n g eti   d at aset ,   a   tw o - ti er   a u g m e n ta ti o n   s t r at e g y   w a s   u s ed .       5.   E XP E R I M E N T   T h is   s ec tio n   d is cu s s es  th v ar io u s   ex p er im en ts   co n d u cted   t o   id en tify   th m o s s u itab le  AI   SW L M   m o d el  f o r   d etec tin g   th an im al s .   a.   T o   d etec an d   r ec o g n ize  th a n im als  in   th Go ld   Stan d ar d   Sn ap s h o Ser en g eti  d ataset  with   th o r ig i n al  s et  o f   im ag es,  th at  ar e   im b alan ce d   ac r o s s   th class es.     E x p er im en tatio n   with   s m aller   m o d el,   YOL V5 m   r ef e r r ed   to   as  wild life   m o n ito r in g   with   o r ig in al  d ataset  ( W L M - O1 ) .     E x p er im en tatio n   with   lar g e r   m o d els with   o r ig in al  d ataset,   YOL V5 l r ef er r ed   as WLM - O2 .   b.   Dete ctin g   an d   r ec o g n izin g   an i m als with   au g m en ted   d ataset  an d   d if f er en t w eig h t i n itializatio n   m eth o d s .     E x p er im en tatio n   with   s m alle r   m o d el,   YOL V5 m   with   r an d o m l y   in itialized   weig h ts   r ef er r ed   as   w ild life   m o n ito r in g   with   au g m en ted   d ataset  an d   r an d o m   w eig h ts   ( W L M - A - R W 1 ) .     E x p er im en tatio n   with   lar g er   m o d el  o n   a u g m e n ted   d atas et,   YOL V5 with   r an d o m ly   in itialized   weig h ts   r ef er r ed   ( W L M - A - R W 2 ) .     E x p er im en tatio n   with   s m aller   m o d el  o n   a u g m e n ted   d ataset,   YOL V5 m   with   u s in g   b est  weig h f r o m   ex p er im en W L M - O1   r ef e r r ed   as   wild life   m o n ito r in g   with   a u g m en ted   d ataset  an d   b est  tr ain ed   weig h ts   ( W L M - A - B W 1 ) .     E x p er im en tatio n   with   lar g er   m o d el  o n   a u g m en ted   d ata s et,   YOL V5 l   with   b est  weig h f r o m   ex p er im en t WLM - O2   r e f er r e d   as WLM - A - B W 2 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   1 6 ,   No .   1 Feb r u ar y   20 2 6 :   2 1 6 - 229   222   5 . 1 .     B uil din g   WL M - O 1   m o d el  wit h o rig ina l da t a s et       At  f ir s th o r ig in al  d ataset  was  u s ed   to   tr ain   th YOL O   V5 m   m o d el  wh ich   h as  3 6 9   lay er s .   T h is   m o d el  u s ed   th p r tr ain e d   weig h ts   an d   h y p e r   p ar am eter s   v a lu es  o f   YOL V5   m o d el.   T h e n   th YOL V5 m   m o d el  was  m ad to   r u n   f o r   5 0 0   ep o ch s   with   1 6   as  b atch   s ize .   T h m o d el  tr ain in g   s to p p ed   at  3 1 1   ep o ch s   s in ce   it  h as  s h o wn   n o   im p r o v em e n in   lear n in g   af ter   th at  ep o ch .   T h eir   b est,  last   weig h ts   ar s av ed   f o r   d etec tio n   a n d   f u tu r u s e.   T h t r ain ed   W L M - O1   m o d el  is   u s ed   f o r   test in g   an d   f o u n d   th at   th m o d el  d et ec ted   f o r   m o s test   im ag es  an d   f ailed   to   d etec wild life   s p ec ies  in   th f ew  o f   th test   im ag es.  T h o u tco m o f   th W L M - O1   m o d el  d u r in g   test in g   will  h a v th e   b o u n d in g   b o x   ar o u n d   th d etec ted   a n im als  an d   co u n ts   th n u m b er   o f   s p ec ies  p r esen in   th test   im a g e.   T h lay er s   o f   YOL V5 m   wer n o s u f f icien to   d etec t h an im al  in s tan ce s   with   p o o r   lig h t c o n d itio n s   an d   d u to   class   im b alan ce   in   th o r ig in al  d ataset.     5 . 2 .     B uil din g   WL M - O2  m o d el  wit h o rig ina l da t a s et       T h o r i g in al  d ataset  was  th e n   u s ed   to   tr ain   th e   YOL V5 m o d el   wh ich   h as  m o r la y er s   wh en   co m p ar ed   to   th e   YOL V5 m   m o d el.   YOL O   V5 l h as  4 6 8   la y er s .   T h is   m o d el   also   u s ed   th e   p r e   tr ain ed   weig h ts   an d   h y p er   p ar a m eter s   v alu es  p r o v id e d   with   t h YOL V5   m o d el.   T h en   t h YOL V5 m o d el  was  m ad e   to   r u n   f o r   5 0 0   ep o ch s   with   1 6   b atch   s ize.   T h m o d el  tr ai n in g   s to p p ed   at  2 9 2   ep o ch s   an d   n o   im p r o v e m en was  o b s er v ed   in   lear n in g   a f ter   th a ep o ch .   T h eir   b est,  last   weig h ts   ar n o ted   f o r   d etec tio n   a n d   f u tu r u s e.   W h en   W L M - O2   m o d el  is   u s ed   f o r   test in g ,   an aly s is   o n   d etec tio n s ,   f o u n d   t h at  th er wer wr o n g   d e tectio n s   o f   wild life   s p ec ies an d   s o m r em ain ed   u n d etec ted   b ec au s th tr ain in g   was n o t su f f icien t b ec au s o f   t h u n av ailab ilit y   o f   en o u g h   d ata  ac r o s s   class e s .   T h W L M - O2   m o d el  was  ab le   to   d etec s p ec ies   u n d er   p o o r   lig h tin g   co n d itio n s   b u t sti ll c lass   im b alan ce   h as p lay ed   in   d r ag g i n g   th p er f o r m a n ce   d o wn .     5 . 3 .     B uil din g   WL M - A - RW1   m o del f ro m   s cr a t ch  wit h a u g m ent ed  d a t a s et   T h au g m en te d   d ataset  was  u s ed   to   tr ain   th YOL V5 m   m o d el  lab eled   as  W L M - A - R W 1   f r o m   s cr atch   with o u u s in g   an y   s p e cial  weig h in itializatio n .   T h is   ex p er im e n also   u s ed   h y p er   p ar am eter s   p r o v id e d   with   YOL V5 .   T h en   th m o d el  was  m ad to   r u n   f o r   5 0 0   ep o ch s   with   1 6   as  b atch   s ize.   Sin ce   it  is   tr ain in g   f r o m   s cr atch   th ea r l y   s to p p i n g   was  n o u s ed   an d   th m o d el   was  r u n   f o r   co m p lete  5 0 0   ep o ch s .   T h e   tr ain in g   r esu lts   o f   W L M - A - R W 1   h av s h o wn   g o o d   p er f o r m an ce   in   ter m s   o f   lea r n in g   an d   v ar i an ce   b etwe en   th e   an im als.  T h test   r esu lts   o f   th ex p er im e n s h o th at  it  h as  d etec ted   th s p ec ies  an d   lab e led   th em   c o r r ec tl y   with o u an y   p r o b lem .   T h o u g h   th e   tr ain in g   a n d   d etec tio n   wer g o o d ,   th e   d r awb ac k s   w er th at   it  was  n o d etec tin g   a   f ew  m u ltip le  s p e cies  in   th e   s am im ag e,   it  j u s d etec ted   o n o r   two   s p ec i es  an d   i g n o r ed   t h r em ain in g .   An d   o b s er v e d   th at  YOL V5 m   lay er s   wer n o en o u g h   to   d etec s p ec ies  in   f ew  im ag es  with   p o o r   q u ality   an d   lig h tin g   c o n d itio n s .     5 . 4 .     B uil din g   WL M - A - RW2   m o del f ro m   s cr a t ch  wit h a u g m ent ed  da t a s et       T h s am p r o c ed u r e   as  in   ex p er im en in   W L M - A - R W 1   wer u s ed   in   YOL V5 f r o m   lab elled   as  W L M - A - R W 2 .   T h o n ly   p o s i tiv in   th W L M - A - R W 2   m o d el  is   th at  it  d etec ted   s p ec ies  ev en   in   im ag es  with   p o o r   q u ality   an d   lig h tin g   co n d itio n s .   L ik W L M - A - R W 1 ,   th is   m o d el  lack s   p er f o r m a n ce   b y   n o d etec tin g   a   f ew  m u ltip le  s p ec ies  in   th s am im ag e.   T h ad d itio n al  o b s er v atio n   m ad is   th at  th W L M - A - R W 2   m o d el  d etec ts   f ew  s p ec ies  wr o n g l y .   Oth er   th a n   th f ew  d r awb a c k s   th W L M - A - R W 2   s h o wed   g o o d   p e r f o r m an ce   wh en   co m p ar ed   to   th p r ev io u s ly   b u ilt o n es.     5 . 5 .     B uil din g   WL M - A - B W1   m o del us ing   bes t   weig ht  f ro m   WL M - O 1   t ha t   us ed  o rig ina l da t a s et   T h au g m en ted   d ataset  was  o n ce   ag ain   u s ed   to   tr ain   t h Y OL V5 m   m o d el  r ef er r e d   as   W L M - A - B W 1 .   T h is   tim th m o d el  wa s   g iv en   t h b est  weig h ts   o f   W L M - O1   wh ich   was  tr ain ed   o n   th o r ig i n al  d ataset  with   s am h y p er   p ar am eter s .   Sin ce   it  u s es  weig h ts   f r o m   th p r ev io u s   m o d el,   we  u s ed   ea r ly   s to p p in g   to   s to p   th m o d el  wh e n   th e r is   n o   im p r o v em e n in   lear n i n g .   T h e   m o d el  s to p p ed   tr ain in g   at  3 8 8   e p o ch s .   T h t r ain in g   r esu lts   wer en co u r a g in g   in   te r m s   o f   lear n in g .   T h test in g   r e s u lt  s h o ws  th b est  p er f o r m an ce ,   wh en   c o m p ar e d   with   th p r ev io u s   au g m e n ted   m o d els.  Mu ltip le  s p ec ies  d etec tio n   was  also   f o u n d   to   b e   im p r o v ed   b u s till   p er f o r m ed   p o o r l y   o n   i m ag es  with   p o o r   q u ality ,   lig h tin g   co n d itio n s   an d   an o m alies.     5 . 6 .     B uil din g   WL M - A - B W2   m o del us ing   bes t   weig ht  f ro m   WL M - O 2   t ha t   us ed  o rig ina l da t a s et     T h f in al  e x p er im e n was  b u ild in g   W L M - A - B W 2   m o d el  u s in g   au g m en ted   d ataset  u s in g   th b est  weig h ts   f r o m   W L M - O2   th at   was  tr ain ed   o n   th e   o r ig i n al  d ataset.   T h m o d el  was  th en   m ad to   r u n   f o r     5 0 0   ep o c h s   with   1 6   as  b atch   s ize.   T h m o d el  s to p p ed   its   t r ain in g   at   4 1 6   e p o ch s   with   n o   im p r o v em e n ts   in   lear n in g   af ter   t h at.   T h test   r e s u lts   s h o wed   th at  W L M - A - B W 2   h as  g iv en   b etter   r esu lts   f o r   im ag es  with   p o o r   q u ality ,   lig h tin g   c o n d itio n s   an d   an o m alies.  Mu ltip le  s p ec ies  d etec tio n s   wer also   im p r o v e d ,   an d   t h e   m is class if icatio n   was d r asti ca l ly   r ed u ce d   in   W L M - A - B W 2   m o d el  wh en   co m p a r ed   to   all  t h p r ev i o u s   m o d els.     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         A I   S WL M:  a r tifi cia l in tellig e n ce - b a s ed   s ystem  fo r   w ild life  mo n ito r in g   ( A r u n   G.   K . )   223   6.   RE SU L T S   6 . 1 .       Q ua ntit a t iv a na l y s is       W ild life   s p ec ies  d etec tio n   an d   id en tific atio n   m o d el  d etec t s   th an im als  an d   r ec o g n izes   th em   b y   b o u n d in g   b o x es  an d   g en e r ates  o b jectiv en ess   s co r alo n g   with   class   n am es.  Qu an titativ p e r f o r m a n ce   an aly s is   is   p er f o r m ed   to   e v alu ate  t h m ea s u r ab le  f ac t o r s   o f   th e   r es u lts   g en er ated   b y   th e   d etec tio n   an d   id e n tific atio n   m o d el  o n   th test   s et.   Pre cisi o n ,   R ec all,   m AP q u an titativ m ea s u r es a r u s ed   f o r   th ev al u a tio n .   T h th r ee   lo s s es  ca lcu lated   ar b o u n d in g   b o x   lo s s ,   o b jectn ess   lo s s   an d   class if icatio n   lo s s   f o r   b o th   tr ain in g   an d   v alid atio n .   B o u n d in g   b o x   lo s s   is   th lo s s   co m p u ted   f o r   th e   lo ca lizatio n   p h ase  o f   an im al  d etec tio n   wh er it  ca lcu lates  th e   m ea n   s q u ar ed   er r o r   b etwe en   t h g r o u n d   tr u th   a n d   th p r ed icted   b o x .   T h e   p r o b ab ilit y   o f   th b o u n d i n g   b o x   h av in g   an   a n im al  is   ca lcu lated   b y   th e   o b jectn ess   s co r e.   B in ar y   C r o s s - E n tr o p y   was  u s ed   t o   co m p u te  th class if icatio n   lo s s   d u r in g   a n im al  s p ec ies p r ed ictio n .   T h tr ain i n g   lo s s   am o n g   t h ese  m o d els s h o ws  d ec lin f r o m   0 . 0 3   to   less   th an   0 . 0 2 5 ,   s im ilar ly   th o b jectiv en ess   lo s s   h as a l s o   g o t r ed u ce d   f r o m   0 . 0 1 5   to   less   th an   0 . 0 1 .   T h class if icatio n   lo s s   h as  also   d ec r ea s ed   to   0 . 0 0 5   f o r   W L M - A - B W 2 .   Fro m   th r esu lts ,   we  o b s er v ed   th at  th p r ec is io n   v alu es  wer d eter io r atin g   with   th s am p le  o f   th o r ig in al   d ataset.   W h en   th e   au g m en ted   d ataset  is   u s ed   th p r ec is io n   v alu es  ar c o n s is ten an d   in cr ea s in g   f o r   m o s o f   th tim an d   r ea ch in g   ab o v 0 . 8   f o r   W L M - A - B W 2 .   Similar   b eh av io r   w as  n o ticed   f o r   r ec all  v alu es  am o n g   th m o d els.   Fro m   th a n aly s is   it  is   u n d e r s to o d   th at   in cr ea s ed   p r ec is io n   an d   r ec all   v alu es  lead   to   b etter   o b ject   d etec tio n   r esu lts   o f   W L M - A - B W 2 .   C o n s id er in g   th m AP  v al u es  o b tain ed   f o r   th s am th r ee   YOL V5 m o d els  f o r   two   d if f er en t   th r esh o ld   v alu es,0 . 5   an d   0 . 5 : 0 . 9 5 ,   m AP  v alu es  o b tain ed   f r o m   th e   o r i g in al  d ataset  wer n o c o n tin u o u s ly   in cr ea s in g .   Fro m   th is   it  ca n   b u n d er s to o d   th at  th d etec tio n   o b tain ed   f o r   th ex p er im e n with   th o r ig in al   d ataset  was   n o b etter .   B u wh en   th m AP  v alu es  o f   th o th er   two   m o d els  n am ely   W L M - A - R W 1   an d   W L M - A - B W 2   ar o b s er v ed ,   th ey   ar co n tin u o u s ly   in cr ea s in g   an d   b ec o m co n s tan af ter   s o m tim e.   T h o u g h   b o th   m o d el’ s   m AP  v alu es  i n cr ea s an d   b ec o m e   co n s tan t,   th m AP  v alu es  o f   th ex p er im e n with   au g m en te d   d ataset  u s in g   b est  weig h ts ,   W L M - A - B W 2   wer s lig h tly   b etter   wh en   co m p a r ed   to   th o th er .   W ith   th is   it  is   f o u n d   th at   ex p e r im en ts   with   au g m en ted   d atasets   u s in g   alr ea d y   tr ain ed   weig h ts   g iv e   b et ter   d etec tio n   wh en   co m p ar ed   to   all  o th er   e x p er im en tal  m o d els.  As  ca n   b s ee n   f r o m   th e   v alu es  r e p o r te d   in   T ab le  1 ,   m AP  v alu es   ar v er y   lo f o r   W L M - O1   an d   W L M - O2 .   T h is   was  al s o   o b s er v ed   f r o m   th d etec tio n   o f   t h ese  m o d els,  wh er m an y   a n im als  wer lef t u n id e n tifie d   an d   m an y   wer e   f alsely   d etec ted ,   an d   th ese  m o d els  co u ld   n o d etec m a n y   ch allen g in g   im a g es a s   well.       T ab le  1 .   Per f o r m an ce   m etr ics o f   all  AI   SW L m o d els   M o d e l   P r e c i s i o n   R e c a l l   mA P   [ 0 . 5 : 0 . 9 5 ]   W LM - O1   6 6 . 4 1   5 0 . 5 4   3 2 . 8 5   W LM - O2   7 6 . 1 7   6 1 . 9 1   3 5 . 9 4   W LM - A - R W 1   8 0 . 5 1   7 4 . 5 0   6 2 . 3 6   W LM - A - R W 2   8 0 . 4 4   7 6 . 5 5   6 2 . 6 9   W LM - A - B W 1   7 7 . 4 3   7 7 . 4 7   6 3 . 9 7   W LM - A - B W 2   8 1 . 2 8   7 7 . 8 8   6 4 . 2 7   W LM - O1   6 6 . 4 1   5 0 . 5 4   3 2 . 8 5       Fro m   th d etec tio n s   m ad e   b y   W L M - O1   an d   W L M - O2   m o d els,  it wa s   o b s er v ed   th at  th d e tectio n   h as  s ev er al  f alse  p o s itiv es  wh er e   b u f f alo es  we r d etec te d   as  wil d   b ea s ts   with   p o o r   o b jectiv en ess   s co r an d   m an y   an im als  wer n o d etec ted   d u to   lo m AP  v alu es.  Fro m   t h T ab le  1 ,   t h m AP  v alu es  f o r   th a u g m en te d   m o d els  s u ch   as  W L M - A - R W 1   an d   W L M - A - R W 2   ar twice  h ig h er   th a n   n o n - au g m e n ted   W L M - O1   an d   W L M - O2   m o d els  wh er th eir   Fals Po s i tiv es  wer co m p ar ativ ely   r ed u ce d   with   W L M - O1   an d   W L M - O2 .   An d   we  f o u n d   s o m a n im als  ar n o d etec ted   in   im ag es  wi th   m u ltip le  s p ec ies.  T h o u g h   t h m AP  v alu es  ar e   r elativ ely   h ig h   b u n o s u f f icie n to   im p r o v th d etec tio n   f o r   m u ltip le  s p ec ies  in   s in g le  ca m er tr ap   im ag e.   Fig u r 2 ( a )   to   ( c)   s h o ws  th e   p er f o r m a n ce   o f   W L M - A - B W 2   u n d er   v ar ied   b ac k g r o u n d   co n d itio n s :   Fig u r 2 ( a clea r - s k y   illu m in atio n Fig u r 2 ( b )   d en s f o r est ,   an d   Fig u r 2 ( c )   s h ad o w   d o m in ated   s ce n es .   Fro m   th e   d etec tio n s   o f   W L M - A - R W 1   an d   W L M - A - R W 2   m o d els,  it  was  clea r ly   s ee n   th at  th e   d etec tio n   o f   f alse  p o s itiv es  was  r ed u ce d   with   in cr ea s in   m AP  v alu es  b u s till   s ev er al  s p ec i es  ar n o d etec ted   wh en   th er ar m u ltip le  s p ec ies  in   s in g le  im ag e.   Fo r   th m o d els,  W L M - A - B W 1   an d   W L M - A - B W 2   th at   u s ed   au g m en ted   d ataset  an d   th f etch ed   b est  weig h ts   f r o m   W L M - O1   an d   W L M - O2   m o d els,  it  is   o b s er v ed   th at  th m AP  v alu es  ar e   r elativ ely   h ig h er   th an   th o th er   m o d els.  T h d etec tio n   f r o m   th ese   m o d els  wer e   b etter   th an   th e   p r e v io u s   m o d els.  An d   we  f o u n d   th at   th ese  m o d els  o v er c o m e   ch allen g es   s u c h   as   m is class if icatio n ,   less   o b jectn ess   s co r an d   m u lt ip le  s p ec ies d etec tio n   th at  o cc u r r ed   i n   o th er   m o d els.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   1 6 ,   No .   1 Feb r u ar y   20 2 6 :   2 1 6 - 229   224   Fro m   th ese  im ag es  o n e   ca n   cl ea r ly   s ee   th at  th d etec tio n   o f   m u ltip le  s p ec ies  in   s in g le  i m ag was  im p r o v e d ,   wh ich   in   tu r n   c o n tr ib u ted   to   th i n cr ea s in   m AP  v alu es.  T h co n f u s io n   m at r ices  in   Fig u r e   3   s h o w   th at  W L M - A - B W 2   as  s h o wn   in   Fig u r e   3( a p er f o r m s   s ig n if ican tly   b etter   s p ec ies  r ec o g n it io n   th an   W L M - O1   as  s h o wn   in   Fig u r e   3( b ).   T h au g m en tatio n   a n d   th u s o f   th b est  weig h ts   f o r   tr ain in g   W L M - A - B W 2   lead   to   b etter   p er f o r m an ce   as sh o w n   in   th d iag o n al  o f   th co n f u s io n   m atr ix .   T o o   m a n y   s p ec ies ar lef t u n d etec ted   b y   th W L M - O1   m o d el  d u to   th u n av ailab ilit y   o f   th s u f f icien t le ar n in g   s am p les ac r o s s   th class es.         ( a)   ( b )   ( c)     Fig u r 2 .   W L M - A - B W 2   in   d if f er en t b ac k g r o u n d s   ( a )   c lear   s k y   ( b )   f o r est ,   an d   ( c)   s h a d o w           ( a)   ( b )     Fig u r 3 .   C o n f u s io n   m atr i x   o f   ( a)   W L M - O1   m o d el   a n d   ( b )   W L M - A - B W 2   m o d el       6 . 2 .     Q ua lit a t iv a na ly s is     T h d etec tio n   r esu lts   o b tain ed   f r o m   all  th 6   m o d els  wer an aly ze d   in   th is   s ec tio n   wi th   r esp ec to   ch allen g in g   s itu atio n s   n am el y   d if f e r en illu m in atio n   co n d itio n s ,   b ac k g r o u n d ,   clu tter ,   s am s p ec ies  s in g le  in s tan ce ,   d if f er e n t sp ec ies d if f er en t in s tan ce s .     6 . 2 . 1 Dif f er ent   illu m ina t io co nd it io ns   a nd   s im ila ba ck g ro un d     W ild life   s p ec ies  wer s h o u n d er   d if f er en lig h tin g   co n d itio n s   ( i.e . ,   d if f e r en illu m in atio n s )   in   th at  m an y   s p ec ies  wer p ict u r ed   u n d er   p o o r   illu m in atio n   co n d itio n s .   T o   d etec im ag es  u n d er   th p o o r   illu m in atio n   co n d itio n s   was  o n e   o f   th e   m ajo r   ch allen g es  f ac e d   b y   th e   o b ject   d etec tio n   m o d els.  W ith   th e   p r esen ce   o f   C SP Dar k n et  with   4 6 8   lay er s   in   its   b ac k b o n m ad th SW L m o d els  p o s s ib le  to   o v er co m t h p o o r   illu m in atio n   ch allen g e .   T h an im als d etec ted   in   Fig u r 4   ar th r esu lts   o f   th b est p er f o r m in g   W L M - A - B W 2   m o d el  th at  h as  b ee n   tr ain e d   o n   th a u g m e n ted   d ata  an d   u s ed   th b est  weig h ts   f r o m   W L M - OM 1   m o d el.   I ca n   b e   o b s er v e d   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         A I   S WL M:  a r tifi cia l in tellig e n ce - b a s ed   s ystem  fo r   w ild life  mo n ito r in g   ( A r u n   G.   K . )   225   th at  th test   im ag es  ar tak en   at  n ig h with   d if f er en illu m in atio n s   an d   im ag es  th at  ar e   d if f icu lt  to   d if f er e n tiate   f r o m   th b ac k g r o u n d .   W L M - A - B W 2   ca n   d etec t a n im als wi th   ch allen g in g   b ac k g r o u n d s   s u ch   as c lo u d y ,   s u n s et   an d   s u n r is e.   T h ese  d etec tio n s   ar attr ib u ted   to   th wo r k in g   o f   C SP Dar k n et  th at   clea r ly   d if f er en tiates  b ac k g r o u n d   an d   f o r eg r o u n d   in f o r m atio n   d u r in g   d etec tio n .   T h is   ca p ab ilit y   o f   th SW L m o d el  will  allo th e   AI   SW L to   d etec t th an im a l e v en   o u ts id th f o r est o r   co u n tr y s id ir r esp ec tiv o f   th e   b ac k g r o u n d .           Fig u r 4 .   W L M - A - B W 2   p er f o r m an ce   in   p o o r   illu m in atio n   c o n d itio n s       6 . 2 . 2 Clutt er   C lu tter ed   im ag es  h a v th e   f o cu s   o n   th d if f er e n o b jects  th an   o n   t h d esire d   o b jects.  So ,   th e   wild   s p ec ies  ca p tu r ed   in   clu s ter ed   im ag es  ar eith er   b lu r r e d   o r   n o s ee n   b r ig h tly .   Dete ctin g   s p ec ies  in   th clu tter ed   im ag es  is   th n ex ch allen g e   o f   AI - SW L M.   T h p r esen ce   o f   PANet  as  its   n ec k   in   th ar ch itectu r o f   A I   SW L p lay s   m ajo r   r o le  in   d etec tin g   s p ec ies  in   clu tter e d   i m ag es  an d   m ak es  it  p o s s ib le  t o   r ec o g n ize  ea ch   o f   th an im als  in   th clu tter .   T h b i - d ir ec tio n al  f ea tu r f u s io n   tech n iq u h elp s   th n etwo r k   tr ain   o n   d if f er en t   in p u f ea t u r es.  Dete ctio n   o f   m u ltip le  wild   an im al  s p ec ies   in   clu tter ed   im ag es  b y   W L M - A - B W 2   m o d el  is   s h o wn   in   Fig u r 5 .           Fig u r 5 .   Dete ctio n   o f   clu tter e d   im ag es b y   W L M - A - BW2       6 . 2 . 3 S i n g l e   s p e c i e s   s i n g l in s t a n c e ,   s i n g l s p e c i e s   m u lt i p l e   i n s t a n c e s   a n d   d i f f e r e nt  s p e c i e s   m u l t i p l e   i n s t a n c e s   T h o th er   c h allen g o f   AI - SW L s y s tem   is   to   d etec t th s in g le  s p ec ies in   s in g le  in s tan ce .   C SP   an d   YOL d etec tio n   h ea d   p lay   th m ain   r o le  in   th s am s p ec ies  in   s in g le  in s tan ce   an d   ca n   b s ee n   in   Fig u r 6 .   B asic  r ec o g n itio n   o f   an im als  is   p er f o r m ed   well  b y   W L M - A - B W 2   m o d el  with   g o o d   o b jectiv en ess   s co r g r ea ter   th an   9 5 an d   b etter   m AP  wh en   co m p ar ed   with   o th er   m o d els  u n d er   co n s id er atio n   th r o u g h   th eir   q u an titativ m ea s u r es  s u ch   as  p r ec is io n   an d   r ec all.   T h lear n in g   ab ilit y   o f   th b est  p er f o r m in g   m o d el  is   ac h iev ed   d u t o   d ata   au g m e n tatio n   an d   h a v in g   m u ltip les  lay er s   o f   C SP Dar k n et  as  its   b ac k b o n e.   Par tial   tr an s itio n   lay er   in   C SP Dar k n et,   with   its   f ea tu r f u s io n   s tr ateg y   in   h ier ar ch ical  f ash io n   co n tr ib u ted   to   class if icatio n   o f   m u ltip le  an i m al  s p ec ies  in   t h ca m er tr ap   im ag es.   T h e   p er f o r m a n ce   o f   W L M - A - B W 2   m o d el  in   d etec tin g   th s in g l an im al  s p ec ies  wi th   m u ltip le  in s tan ce s   i s   s h o wn   in   Fig u r 7   an d   d if f er en t   an im al  s p ec ies with   m u ltip le  in s tan ce s   in   Fig u r 8 .     Evaluation Warning : The document was created with Spire.PDF for Python.