I A E S  I n t e r n at io n al  Jou r n al  of  A r t if ic ia I n t e ll ig e n c e  ( I J - AI )   V ol .   11 , N o.   1 M a r c h   2022 , pp.  1 02 ~ 1 09   I S S N 2252 - 8938 ,   D O I 10.11591/ ij a i. v 11 .i 1 .pp 1 02 - 1 09          102       Jou r n al  h om e page ht tp : // ij ai . ia e s c or e .c om   Im age  an d  vi d e f ac e  r e t r i e val  w i t h  q u e r y i m age  u si n c on vol u t i on al   n e u r al  n e t w or k   f e at u r e s       I m an e  H ac h c h an e 1 ,   A b d e lm aj id  B ad r i 1 , A c h a S ah e l 1 , I lh a m   E l m ou r ab it 1 , Y as s in e  R u ic h e k 2   1 L a bor a t oi r e  d’ E l e c t r oni que , E ne r gi e , A ut om a t i que  a nd T r a i t e m e nt  de  l I nf o r m a t i on ( E E A  a nd T I ) , F a c ul t   de s  S c i e nc e s  e t  T e c hni que s   M oha m m e di a , U ni ve r s i t   H a s s a n I I  C a s a bl a nc a M oha m m e di a M or oc c o   2 I R T E S - L a bor a t oi r e  S E T , U ni ve r s i t   de  T e c hnol ogi e  de  B e l f or t  M ont b l i a r d, B e l f or , F r a nc e       A r t ic le  I n f o     A B S T R A C T   A r ti c le  h is to r y :   R e c e iv e d   M a y   7 , 2021   R e vi s e D e c   2 2 , 2021   A c c e pt e D e c  29 2021       This  paper  addresses  the  issue   of  image   and  video  face   retrieval.  The  aim  of   this  work  is  to   be  able   to  retrieve   images  and/or   videos  of   specific  person  from a dataset  of images  and videos  if we have  a query i mage of that   person.  The  methods  proposed  so   far  either   focus  on  images   or  videos   and  us hand  crafted  features.  In  this   work  we  built   an  end - to - end  pipeline   for  both   image   and  video  face  retrieval   where  we   use  convolutional   neural  network  (CNN)  features  from  an  off - line  feature  extractor.  And   we  exploit  the   object   proposals  learned  by  region  proposal  network  (RPN)  in  the  online  filter ing  and  re - ranking  steps.  Moreover,  we   study  the   impact  of  finetuni ng  the   networks,  the  impact  of  sum - pooling  and  max - pooling,   and  the  im pact  of  different similarity metrics. The  results that we  were able  to achieve ar e very   promising.   K e y w o r d s :   C la s s if ic a ti on   C onvolut io na ne ur a ne twor k   F a s te r  R - C N N   I m a ge  a nd vide o r e tr ie va l   I m a ge  pr oc e s s in g   I m a ge  t o vi de o i ns ta nc e   r e tr ie va l   O bj e c r e c ogni ti on   This is an  open  acce ss artic le unde r the  CC BY - SA   license.     C or r e s pon di n g A u th or :   I m a ne  H a c hc ha ne   L a bor a to ir e   d’ E le c tr oni que E ne r gi e A ut om a ti que   a nd  T r a it e m e nt   de   l’ I nf or m a ti on  ( E E A   a nd  T I ) F a c ul t   de s  S c ie nc e s  e T e c hni que s   M oha m m e di a , U ni v e r s it   H a s s a n I I  C a s a bl a n c a   M oha m m e di a , M or oc c o   E m a il ha c hc ha ne im a ne @ gm a il .c om       1.   I N T R O D U C T I O N   T he   m a s s iv e   a dva nc e s   in   in te r ne te c hnol ogi e s   a nd  th e   pr ol if e r a ti on  of   s m a r tp hone s di gi ta c a m e r a s   a nd  s to r a ge   d e vi c e s   le to   a n   in c r e a s e   in   th e   popula r it of   vi s u a s e a r c h   a ppl ic a ti ons   s uc a s   im a g e   r e tr ie va l,   vi de r e tr ie va or   pr e c is e ly   in s ta nc e  s e a r c h.  B y   c om pa r in a   que r a ga in s a   da ta ba s e in s t a nc e  s e a r c is   u s e d   to   e xt r a c im a ge s   or   vi de os   of   a   pa r ti c ul a r   obj e c t   f r om   la r ge   da t a ba s e s I ha s   be e n   c om m onl us e d   in   pr oduc r e c ogni ti on, pr ope r ty  i de nt if ic a ti on, a nd othe r  a ppl ic a ti ons   [ 1] [ 3] .   W e   s houl not e   th a in   one   ha nd,  im a g e - to - im a ge   r e tr ie va is   a   w e ll - known   f ie ld   w he r e   la r ge - s c a l e   f a c e   im a ge   r e tr ie va ha s   r e c e nt ly   a tt r a c te d   a tt e nt io n,   a nd  a   w id e   va r ie ty   of   m e th ods   ha ve   be e pr opos e f or   f a c e   r e c ogni ti on  a nd  r e tr ie va l   [ 4] [7 ] F ol lo w in pr ope r   a da pt a ti on,  w e ll - known  te c hni que s   f or   im a ge   r e tr ie va w e r e   us e f or   f a c e   r e c ogni ti on/ r e tr ie va l,   s uc a s   b a g - of - vi s ua w or ds   ( B oV W ) O th e r   r e c e nt   s tu di e s   us e d c onvolut io na ne ur a ne twor ( C N N )   f or  t he  f e a tu r e  e xt r a c ti on t a s [ 6] .   O th e   ot he r   h a nd,  im a ge - to - vi de r e tr ie va [ 8] [ 10]   is   a n   a s ym m e tr ic   pr obl e m   w he r e   th e   la c of   te m por a in f or m a ti on  in   im a ge s   s to ps   us   f r om   us in s ta nda r te c hni que s   f or   e xt r a c ti ng  vi de de s c r ip to r s   [ 11] [ 14] T r a di ti ona ll y,  im a ge - to - vi de r e tr ie va te c hni que s   a r e   ba s e d   on  a   c la s s ic   e xt r a c ti on   m e th od e s   of   ha nd - c r a f te d f e a tu r e s  s c a le  i nva r ia nt  f e a tu r e  t r a ns f or m   ( S I F T )   [ 15] a nd bina r y r obus in de pe nde nt  e le m e nt a r y   f e a tu r e s   ( B R I E F [ 16] S m a ll e r   e f f or ha s   be e m a de   to   a d a pt   de e le a r ni ng  te c hni que s .   W e   c a a ppl s ta nda r f e a tu r e s   f or   im a ge   r e tr ie va [ 17] [ 20 ]   by  pr oc e s s in e a c f r a m e   a s   a in de pe nde nt   im a ge M or e   r e c e nt  w or ks  s how e d t ha i s  pos s ib le  t o us e  C N N  f or  f e a tu r e  e xt r a c ti on w he n w or ki ng on videos   [ 21] , [ 22] .   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938         I m age  and v id e o f ac e  r e t r ie v al  w it h que r y  i m age  u s in   ( I m a ne  H ac hc hane )   103   B ut   not   m uc w or ha s   be e done   in   c om bi ni ng  bot h,  m e a ni n ha vi ng  one   pi pe li ne   f or   bot i m a ge   r e tr ie va a nd  vi de r e tr ie va us in one   que r im a ge H e nc e in   th is   pa pe r w e   in ve s ti ga te   th is   is s ue W e   a r e   tr yi ng  to   r e tr ie ve   th e   t op  N   m os r e le va nt   im a ge s   a nd/ or   vi de os   of   a in s ta nc e   f r om   a   s in gl e   im a ge   que r in s ta nc e . M or e  s pe c if ic a ll y, w e  a r e  w or ki ng on f a c e  r e t r ie va l.  I n ot he r  w or ds , gi vi ng a n  i ns ta nc e  of  a  f a c e  i n a   que r im a ge w e   a r e   tr yi ng  to   r e tr ie ve   th e   to N   m os r e le v a nt   im a ge   in s ta nc e s   a nd/ or   vi de in s t a nc e s   f r om   our  da ta ba s e  of  vi de os  a nd i m a g e s  of  t ha s p e c if ic  f a c e .   T he  m a in  c ont r ib ut io n of  t hi s  pa pe r  i s  t o  bui ld  a n e nd - to - e nd p i pe li ne , f or  bot h  i m a ge  a nd vide f a c e   r e tr ie va us in one   que r im a ge T he   pi pe li ne   ta ke s   a dva nt a ge   of   of f - th e - s he lf   a nd  f in e - tu ne f e a tu r e s   f r o m   a n obje c de te c ti on  C N N . W e  t e s te d t he  i m pa c of  m ul ti pl e  s im il a r it y m e tr ic s , di f f e r e nt  ne twor k a r c hi te c tu r e s ,   m a x - pool in g a nd s um - pool in g a s  w e ll  a s  t he  i m pa c of  m os c o m m on r e r a nki ng s tr a te gi e s .     2.   R E L A T E D  WORK   V is ua s e a r c a nd  r e tr ie va l   a r e   in   ge n e r a a in de xi ng   a nd  que r yi ng  pr obl e m   f or   vi s ua da ta w hi c h   c a be   f ur th e r   di vi de in to   c a te gor ie s   de pe ndi ng  on  th e   que r ty pe   a nd  da ta ba s e   us e d. T he   m os s tu di e f ie ld   in   vi s ua r e tr ie va is   im a ge - to - im a g e   r e tr ie va l,   w he r e   w e   us e   a   que r im a ge   to   f in th e   m os r e le va nt   im a ge s   f r om  a n i m a ge  da ta s e [ 23] , [ 24 ] G e ne r a ll y s pe a ki ng, vis ua s e a r c h a nd r e tr ie va r e m a in s  a n i s s ue  of  i nde xi ng   a nd  que r yi ng  vi s ua da ta T hi s   is s ue   c a b e   c a te gor iz e de pe nd in on  th e   ty pe   of   que r ie s   a nd  da ta ba s e s   u s e d.   T he   m os s tu di e a r e a   in   vi s u a r e tr ie va is   im a ge - to - im a ge   r e tr ie va l,   w e r e   a   w e   u s e   a   qu e r im a ge   to   r e tr ie ve   th e   m os r e le va nt   im a ge s   f r om   a im a ge   da t a s e [ 23] [ 24] A not he r   a r e a   of   vi s ua r e tr ie va is   vi d e o - to - vi de r e tr ie va w he r e  a  que r y vi de o i s  us e d t o r e tr ie ve   r e le va nt  v id e os  f r om  a  vi de o da ta s e [ 25] .  A  f ur th e r  va r ia nt  i s   vi de o - to - im a ge   r e tr ie va in   w hi c w e   us e   a   que r vi de to   s e a r c a   da ta s e of   im a ge s   [ 26] it   is   us ua ll us e d   in   a ugm e nt e r e a li ty A nd  of   c our s e   w e   h a ve   th e   im a ge - to - vi de r e tr ie va w he r e   w e   s e a r c h   a   da ta ba s e   of   vi de os   us in a   que r im a ge   [ 21 ] I th is   pa pe r ,   w e   m e r ge   two   of   th os e   a r e a s I m a ge - to - im a ge   r e tr ie va a nd   im a ge - to - vi de o r e tr ie va l.  W e  f oc us  on   bot h  i m a ge  a nd vide o r e t r ie va us in g one  que r y i m a ge . M or e  pr e c is e ly ,   w e  a r e  t a r ge ti ng f a c e  r e tr ie va l.  M e a ni ng, givi ng a  que r y f a c e  i m a ge  w e  a r e  t r yi ng t o r e tr ie ve  t he  m os r e le va nt   im a ge s  a nd/ or  vi de os  of  t ha s pe c if ic  f a c e .   F a c e   r e tr ie va is   a   di f f ic ul t   ta s be c a us e   it   is   ha r to   a da pt   tr a di ti ona im a ge   r e tr ie va m e th ode s   ( li ke   ba of   w or ds )   a r e   di f f ic ul to   a ppl to   th e   f ie ld   of   f a c e   r e s e a r c [ 27] B e c a us e   th e   tr a di ti ona de s c r ip to r   ba s e d   on  th e   de te c ti on  of   ke poi nt s   ( li ke   S I F T )   of te f a il s   due   to   th e   s m oot s ur f a c e   of   th e   f a c e P r e vi ous   w or k,   us in a   pr e vi ou s ly   tr a in e im a ge   c la s s if ic a ti on  c onvolut io na l   ne ur a ne twor a s   a   f e a tu r e   e xt r a c to r s ho w e th a it   is   m or e   a ppr opr ia te   to   us e   a   f ul ly   c onne c te la ye r   f or   im a ge   r e tr ie va [ 17] R a z a vi a e al [ 28]   I m pr ove r e s ul ts   by  c om bi ni ng  f ul ly   c onne c te la y e r s   e xt r a c te f r om   di f f e r e nt   im a ge   s ubm a tc he s L a te r th e   ne w   w or f ound  th a th e   c onvolut io na la ye r   is   s ig ni f ic a nt ly   be tt e r   th a th e   f ul ly   c onne c te la ye r   in   im a ge   r e tr ie va ta s ks   [ 3] , [ 28] .   W he w or ki ng  on  im a ge - to - im a ge   r e tr ie va l,   a   va r ie ty   of   C N N - ba s e obj e c de te c ti on  pi pe li ne s   ha ve   be e pr opos e d.  I th is   pa pe r w e   a r e   in te r e s te in   F a s te r   R - C N N   [ 29] a   C N N   ne twor c r e a te by  R e e al T he us e a   r e gi on  pr opos a ne twor ( R P N )   [ 30]   in   F a s te r   R - C N N   to   r e m ove   th e   d e pe nde nc e   of   obj e c pr opos it io ns   th a e xi s ts   in   ol de r   C N N   obj e c t   de te c ti on   s ys t e m s .   A nd,  e ve n   th ough  F a s te r   R - C N N   is   de s ig n e to   de te c ge nr a obj e c ts J i a ng  a nd  L e a r ne d - M il le r   [ 31]   w e r e   a bl e   to   hi ghl ig ht   it s   im pr e s s iv e   f a c e   de te c ti on  pe r f or m a nc e e s pe c ia ll y w he r e tr a in e on a   s ui ta bl e   f a c e   de t e c ti on  tr a in in s e [ 6] T he   c ur r e nt   pi pe li n e ,   th a w e   a r e   w or ki ng  on,  us e s   of f - th e - s he lf   a nd  f in e ly   tu ne f e a tu r e s   of   F a s te r   R - C N N ' s   e nd - to - e nd  obj e c t   de te c ti on  a r c hi te c tu r e   to   e xt r a c gl oba a nd  lo c a c onvolut io na f e a tu r e s   in   one   pa s s   a nd  te s th e ir   ut il it y   f o r   im a ge   a nd  vi de f a c e   r e tr ie va l   us in one   que r f a c e   im a ge W e   a ls te s th e   im pa c of   di f f e r e nt   s im il a r it y   m e tr ic s , ne twor k a r c hi te c tu r e s , m a x - pool in g a nd s um - pool in g, a s  w e ll  a s  r e r a nki ng  s tr a te gi e s .       3.   M E T H O D O L O G Y   3.1.  CN N - b as e d  r e p r e s e n t at io n s     I our   ne w   pi pe li ne F ig ur e   1,  w e   e xa m in e   th e   im por ta nc e   of   us in lo c a a nd  gl oba C N N   f e a tu r e s   e xt r a c te f r om   pr e - tr a in e F a s te r   R - C N N   m ode ls   [ 29]   f or   im a ge   a nd  vi de f a c e   r e tr ie va l.   W e   u s e   bounding   boxs   a bove   our   que r im a ge s   to   de f in e   th e   in s ta n c e s   th a w e   a r e   lo oki ng  f or F a s te r   R - C N N   ha two  m a jo r   pa r ts   th a s ha r e   a   c onvolut io na la ye r T he   f i r s one   is   R P N it   is   a   s m a ll   ne ur a ne twor k   th a t   g li de s   ove r   th e   la s f e a tu r e   m a of   th e   c onvolut io la ye r s   to   pr e di c t   w he th e r   a obj e c is   pr e s e nt   or   not ,   as   w e ll   as   th e   bounding  box  of   th os e   obj e c t s   c a ll e w in dow s .   T he   s e c ond   o ne   is   th e   c la s s if ie r   th a t   le a r ns   to   la be l   e a c h   of   th os e  obj e c ts   a s  one  of  t he  c la s s e s  i n t he  l e a r ni ng da ta s e [ 3] .   A s   w it h   e a r li e r   w or ks   [ 3] [ 32] a nd  [ 33]   our   obj e c ti ve   is   to   de r iv e   a   c om pa c im a ge   r e pr e s e nt a ti on   f r om   F a s te r   R - C N N   a c ti va ti ons W e   c on s tr uc t   th e   gl oba de s c r ip to r   by   ig nor in g   a ll   of   F a s te r   R - C N N ' s   l a ye r s   th a t   w or k   w it obj e c t   pr opos it io ns ,   a nd  w e   d e r iv e   f e a tu r e s   f r om   th e   la s c onvolut io na la ye r .   T a ki ng   th e   e xt r a c te a c ti va ti on s   of   th e   c onvolut io la ye r   f or   a n   im a ge   or   a   f r a m e   in to   c on s id e r a ti on,   w e   gr oup  th e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 11 , N o.  1 M a r c h 20 22 1 02 - 1 09   104   a c ti va ti ons   of   e a c f il te r   to   f or m   a im a ge   de s c r ip to r   w it h   th e   s a m e   di m e ns io a s   th e   num be r   of   f il te r s   in   th e   c onvolut io n l a ye r .   W he w or ki ng  on  c ons tr a c ti ng  th e   lo c a de s c r ip to r th e   r e gi on  pool in la ye r   a tt a c he d   to   th e   la s t   c onvolut io na la ye r   is   us e d   to   e xt r a c t   th e   c onvolut io na a c t iv a ti ons   f or   e a c of   th e   obj e c t   pr opos it io n s   ga th e r e d   by  th e   R P N   f or   th e   lo c a l   de s c r ip to r .   T hi s   pr ovi de s   th e   c a pa bi li ty   of   c r e a ti ng   a   lo c a l   de s c r ip to r   f or   e ve r y   w in dow   pr opos a by  a ggr e ga ti ng  th e   a c ti va ti ons   of   th a w in dow   in   th e   R oI   pool in la ye r S um - pool e d   f e a tu r e s  a r e  l 2 - nor m a li z e d i n a  m a nne r  s im il a r  t o t hos e  de s c r ib e d by s e ve r a ot he r  a ut hor s   [ 18] , [ 32] , f ol lo w e d   by w hi te ni ng a nd a  s e c ond r ound of  l 2 - nor m a li z a ti on, while  m a x - pool e d f e a tu r e s  a r e  onl y l 2 - nor m a li z e d onc e   w it hout  a ny w hi te ni ng.           F ig ur e  1. P r opos e d pi pe li ne s  a r c hi te c tu r e       3.2.  Vid e o an d  i m age  r e t r ie val   T he   f e a tu r e   e xt r a c ti ng  is   done   of f li ne   w he r e   w e   c r e a te   th e   d e s c r ip to r s   f or   th e   im a g e s th e   vi de o   f r a m e s   a nd  th e   que r im a ge s A te s ti ng  ti m e   ( th e   onl in e   por ti on  of   th e   pi pe li ne )   w e   f ol lo w   th e   r a ki ng   s tr a te gi e s  de s c r ib e d i n t hi s  s e c ti on. W e  s t a r w it h a  f il te r in g s te p, w he r e  t he  que r y f e a tu r e s  a r e  c om pa r e d t o a ll   th e   da ta s e it e m s   a n th e r a nke us in a   s im il a r it m e a s ur e A th is   s te p,  w e   a r e   s ti ll   c ons id e r in th e   e nt ir e   f r a m e   a s   a   que r y.  A f te r   th e   f il te r in s te p,  w e   lo c a ll a na ly z e   a nd  r e - r a nk  th e   N   uppe r   e le m e nt s I is   th e   s pa ti a r e - r a nki ng.  L a s t,   w e   u s e   que r y   e xpa ns io n   ( Q E ) in   w hi c w e   c om bi ne   th e   d e s c r ip to r s   of   th e   M   hi ghe r   e le m e nt s  of  t he  f ir s r a nki ng w it h t he  que r y de s c r ip to r  t o c onduc a  ne w  s e a r c h   ( M = 5) .     4.   E X P E R I M E N T S   4.1.  Ut il iz e d   d at as e t s     T te s our   m e th od s w e   ne e d   to   u s e   a   da ta s e of   im a ge s   a nd  v id e os W e   c oul d   not   f in one ,   s o   w e   de c id e d t o m e r ge  t w o e xi s ti ng one s . T he s e  a r e  t he  d a ta s e t s  w e  u s e d:     Y ouT ube   f a c e s   da ta ba s e   [ 34] T h e   da t a s e c ont a in s   3,425  vi d e os   of   1,595   pe opl e a ll   of   w hi c w e r e   dow nl oa de f r om   Y ouT ube T he   d a ta ba s e   c ont a in s   a a ve r a ge   of   2.15  vi de os   f or   e a c s ubj e c t,   w it 48  f r a m e s  be in g t he  s hor te s c li p a nd 6,070 f r a m e s  b e in g t he  l onge s t.     F a c e S c r ub  [ 35] 22,507   unc ons tr a in e f a c e   im a ge s   a m a s s e f r om   th e   I nt e r ne t.   W e   a dde a   f r a m in g   box   to  t he  que r y i m a ge s  t o s ur r ounde  t he  t a r ge f a c e s .   T he  da ta s e ts  w e  us e d t o f in e - tu ne  t he  ne twor k:     F E R E T   [ 36] T hi s   da ta s e ha s   3,528  im a g e s W e   pr ovi de   a   f r a m in box  to   th e   que r im a ge s   in   or de r   to   s ur r ounding t he  t a r ge f a c e s .     F A C E S 94  [ 37] T hi s  da ta s e ha s  2,809 im a g e s .   W e   a ls us e th e   55,127  unc ons tr a in e f a c e   im a ge s   of   th e   or ig in a F a c e S c r ub  da ta s e to   f in e - tu ne   th e   ne twor k. W he n t e s ti ng, we  u s e d 111 que r y i m a ge s .   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938         I m age  and v id e o f ac e  r e t r ie v al  w it h que r y  i m age  u s in   ( I m a ne  H ac hc hane )   105   4.2.  E xp e r im e n t al  s e t u p     A c c or di ng  to   pr e vi ous   w or ks   [ 3] [ 6] [ 21 ]   de e pe r   ne twor ks   a c hi e ve be tt e r   pe r f or m a nc e   in   e xt r a c ti ng  gl oba a nd  lo c a f e a tu r e s T he r e f or e w e   de c id e to   u s e   th e   V G G 16  a r c hi te c tu r e s   of   F a s te r   R - C N N   a nd  c om p a r e   it   w it h   th e   Z F   a r c hi te c tu r e   to   te s th e   va li di ty   of   th e   th e or w he n   w or ki ng  on   bot i m a ge   a nd   vi de r e tr ie va l.   W he w or ki ng  w it th e   V G G 16  a r c hi te c tu r e th e   gl oba de s c r ip to r s   a r e   e xt r a c te f r om   th e   la s c onvolut io la ye r   c onv5_3”   a nd  a r e   of   di m e ns io n   512.  A nd  w he w or ki ng  w it th e   Z F   a r c hi te c tu r e th e   gl oba de s c r ip to r s   a r e   e xt r a c te f r om   th e   la s c onvolut io la y e r   c onv5”   a nd   a r e   of   di m e ns io n   256.  F or   th e   lo c a f e a tu r e s w e   gr oup  th e m   f r om   th e   F a s te r   R - C N N   R oI   c l us te r in la ye r T he   gl oba l   de s c r ip to r s   f or   th e   V G G 16 a r c hi te c tu r e  a r e  e xt r a c te d f r om  t he  l a s c onvolut io n  l a y e r   c onv5_3   a nd a r e  of  di m e ns io n 512, while   th e   gl oba de s c r ip to r s   f or   th e   Z F   a r c hi te c tu r e  a r e   e xt r a c te d   f r om   th e   la s t   c onvolut io la ye r   c onv5   a nd  a r e   of   di m e ns io n 256. W e  gr oup loc a f e a tu r e s  u s in g t he  F a s te r  R - C N N  r e gi on of  i nt e r e s ( R oI )   c lu s te r in g l a ye r .   W e   a ls e xpe r im e nt e w it w id e ly   us e s im il a r it m e tr ic s   to   s e e   w hi c one   is   m or e   s ui ta bl e   f or   ou r   pi pe li ne W e   te s te th e   f ol lo w in s im il a r it m e tr ic s C o s in e   s im il a r it m e tr ic E uc li di e s im il a r it m e tr ic M a nha ta s im il a r it m e tr ic C he byc he s im il a r it m e tr ic M in kow s ki   s im il a r it m e tr ic C a nbe r r a   s im il a r it m e tr ic a nd  C or r ol a ti on  s im il a r it m e tr ic T he   f ol lo w in g   s p e c if ic a ti ons   w e r e   us e d   f or   th e   e xp e r im e nt s :   P r oc e s s or I nt e l( R )   C or e   ( T M )   i7 - 7700K  C P U   4.20   G H z ,   R A M 16  G B ,   O S :   U bunt 16.04,   G r a phi c s   c a r d:   N V I D I A  G e F or c e   G T X  1070.   W e   s houl not e   th e   e xt r a c ti on  ti m e   f or   th e   V G G 16  r e qui r e a a ve r a ge   of   16h  11m in   30  s e c ond s   c om pa r e to   a a ve r a ge   of   7h   34m in   a nd   22  s e c onds   w he us i ng  Z F .   T hi s   ti m e   di f f e r e nc e   c a be   e xpl a in e d   by  th e   s iz e s   of   th e   ne twor ks . T he   r a nki ng  to ok  on  a ve r a ge   s e c onds   pe r   que r im a ge th e   r e - r a nki ng  to ok  a n   a ve r a ge  of  16 s e c onds  p e r  que r y i m a ge , a nd w he n us in g t he  Q E , t he  r e - r a nki ng t ook a n a ve r a ge  of  17 s e c o nds   pe r  que r y i m a ge     4.3.  Of f - t h e - s h e lf  C N N  f e at u r e s   I th is   s e c ti on  w e   e va lu a te   u s in F a s te r   R - C N N   f e a tu r e s   f or   f a c e   im a ge   a nd/ or   vi de r e tr ie va l.   W e   ha ve   te s te di f f e r e nt   s im il a r it y   m e tr ic s ,   as   de t a il e d   a bove . T he  r e s ul ts di s pl a ye in  T a bl e   1,  w e r e  s im il a r   a nd  c lo s e but   th e   be s r e s ul ts   w e r e   obt a in e u s in th e   c o s in e   a nd  t he   e uc li di e s im il a r it m e tr ic s   c om bi ne w it our  r e - r a nki ng s tr a te gi e s  w it h a  pr e c is io n of  55.4% . B ut  w it h t h e  ot he r  s im il a r it y m e tr ic s , t he  que r y e xpa ns io a nd t he  s pa ti a r e r a nki ng did not  i m pr ove  t he  r e s ul ts .   M or e ove r a   c om pa r a ti ve   s tu dy  of   th e   s um   a nd  m a x   pool in s tr a te gi e s   of   im a g e - w is e   a nd  r e gi on - w is e   de s c r ip to r s   w a s   a ls c onduc te d,  w it th e   r e s ul t s   s um m a r iz e in   T a bl e   1.  S um - pool in is   be tt e r   th a m a x - pool in g,  a c c or di n to   our   te s ts .   I a ls c onf ir m s   th a F a s t e r   R - C N N   w it a   V G G 16  a r c hi te c tu r e   tr a in e d   on  pa s c a l   V O C   d a ta s e ts   pe r f or m e be s t,   w hi c i s   c on s is te nt   w it pr e vi ous   r e s e a r c th a ha d   de m ons tr a te d   th a de e p ne twor ks  c oul d de li ve r  be tt e r  r e s ul ts   w he n e xt r a c ti ng  gl o ba a nd l oc a f e a tu r e s .     4.4.  F in e - t u n in g t h e  C N N     M or e   im por ta nt ly w e   in ve s ti ga te th e   e f f e c ts   of   f in e - tu ni ng   a   pr e - tr a in e ne twor k   on  r e c ove r y   pe r f or m a nc e  w it h t he  que r y obje c ts  t o r e tr ie ve . W e  us e d t he  m o de V G G 16 of  F a s te r  R - C N N  pr e - tr a in e d w it h   th e   pa s c a V O C  obj e c ts W e  r e f in e d i us in g t w o da ta s e ts :     W e   r e f in e th e   f ir s ne twor w it F E R E T   a nd  F a c e s 9 da ta s e t s   a nd   w e   c a ll e it   V G G 16   ( F e r e a nd F a c e s 94) . B e c a us e  of  t he ir  s m a ll  s iz e , t he   F e r e a nd t he  F a c e s 94 da ta s e t s  w e r e  c om bi ne d, a nd   th e   ne twor k’ s   out put   la ye r   w a s   m odi f ie to   r e tu r 422   c la s s   pr oba bi li ti e s   a nd  th e ir   c or r e s ponding   bounding  box  c oor di na te s   [ 6]   ( th e   422  c ount s   f or   th e   269  c la s s e s   in   th e   F E R E T   da ta s e a nd  th e   152  c la s s e s  i n t he  F a c e s 94 da ta s e t,  pl us  one   a ddi ti ona c la s s  f or  t he  ba c kgr ound) .     W e   r e f in e th e   s e c ond  ne twor w it u s in th e   F a c e S c r ub   da ta s e t.   W e   c a ll e it   V G G 16  ( F a c e s c r ub) F or   th is   ne twor th e   out put   la ye r   w a s   m odi f ie to   r e tu r 530  c la s s   pr oba bi li ti e s   a nd   th e ir   c or r e s ponding  bounding box coor di na te s  ( 530 c la s s e s , pl us  on e  a ddi ti ona c la s s  f or  t he  ba c kgr ound) .   T he   in it ia pa r a m e t e r s   of   F a s te r   R - C N N   a s   d e s c r ib e in   [ 19]   di not   c ha nge but   due   to   a   r e duc e d   num be r   of   tr a in in s a m pl e s th e   num be r   of   it e r a ti ons   w a s   r e duc e f r om   80,000  to   20,000.  W e   us e   th e   r e f in e ne twor ks   of   th e   tu ni ng  s tr a te gy  ( V G G 16  ( F e r e a nd  F a c e s 94)   a nd  V G G 16  ( F a c e s c r ub) )   on  our   im a ge   a nd   vi de da ta s e to   e xt r a c th e   de s c r ip to r s   a nd  pe r f or m   im a ge   a nd  vi de f a c e   r e tr ie va l.   T hos e   r e s ul ts   a r e   pr e s e nt e in   T a bl e   2.  T hi s   ti m e   th e   M a nha tt a s im il a r it m e tr ic a ls c a ll e c it bl oc k,  pr oduc e th e   be s r e s ul ts W e   s houl d   a ls o   not e   th a t   th e   que r y   e xpa n s io a nd   s p a ti a r e r a nki ng  s li ght ly   im pr ove th e   r e s ul ts .   W he c om pa r in th e   s um - pool in s tr a te gi e   to   th e   m a x - pool in s tr a te gi e   of   th e   im a ge - w is e   a nd  r e gi on - w is e   de s c r ip to r s s um - pool in ga ve   be tt e r   r e s ul ts   th a m a x - pool in w it m os s im il a r it m e tr ic s B ut   m a x - poo li ng   ga ve  t he  be s r e s ul ts  w he n u s e d w it h t he  M a nh a tt a n s im il a r it y m e tr ic  w it h a n a c c ur a c y of  76.2% .   W e   a ls c om pa r e di f f e r e nt   F a s te r   R - C N N   a r c hi te c tu r e s   tr a in e on  di f f e r e nt   da ta s e ts W e   de te r m in e th a de e pe r   ne twor ks   ga ve   be tt e r   r e s ul ts w hi c is   c ons i s te nt   w it th e   li te r a tu r e W e   a ls not ic e d   th e  da ta s e ts , on whic h t he  ne twor k w a s  pr e vi ous ly  t r a in e d, ha th e  m os im pa c on t he   r e s ul ts . A s  w e  c a n s e e Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 11 , N o.  1 M a r c h 20 22 1 02 - 1 09   106   w he w or ki ng  w it of f - th e - s he lf   ne twor ks ,   th e   n e twor ks   tr a in e on  pa s c a V O C   g a ve  a ve r a ge   r e s ul ts .   B ut   th e   be s r e s ul ts  w e r e  obt a in e d w he n w or ki ng w it h t he  ne twor ks  t r a in e d f or  f a c e  c la s s if ic a ti on, me a ni ng t r a in e d on  F a s e c r ub  a nd  F e r e a nd  F a c e s 94  in   our   c a s e O th a a c c ount t he   V G G 16  tr a in e on  F a c e s c r ub  ga ve   th e   be s r e s ul ts   be c a u s e   th e   na tu r e   of   th e   ph ot o s   in   th is   da ta s e is   m or e   s im il a r   to   th e   da ta s e th a w e   a r e   w or ki ng  on.  F e r e a nd  F a c e s 94  im a ge s   w e r e   ta ke in   a   c ont r ol le e nvi r on m e nt but   F a s e c r ub  im a ge s   w e r e   a m a s s e f r om   th e   w e a nd  s how c a s e   th e   s ubj e c t   in   di f f e r e nt   pos it io ns   w it d if f e r e nt   li ght i ng  s e tu ps   a nd   f a c ia e xpr e s s io n s   w hi c is   c lo s e s to   w ha vi de o s   c a be .   T ha is   w hy   th e   V G G 16  tr a in e on  F a c e s c r ub  ga ve   th e   b e s r e s ul ts   w he us e f or   r e tr ie vi ng   f a c e   im a ge s   a nd  vi de os   f r om   a   da ta s e of   im a ge s   a nd  vi de os   us in one   que r im a ge   w it h a  pr e c i s io n of  76.2% . S o, w e  w e r e  a bl e  t o i m pr ove  t he  r e s ul ts  w it h 13.7% .       T a bl e  1. M e a n a ve r a g e  pr e c is io n ( m A P )  of  pr e - tr a in e d F a s te r  R - C N N  m ode ls  t r a in e d w it h m ic r os of C O C O   or  pa s c a V O C   M e t r i c s   M ode l s   P ool i ng   R a nki ng   Re - r a nki ng   QE   C os i ne   s i m i l a r i t y m e t r i c   V G G 16 ( P a s c a l  V O C )   s um   0.551   0.551   0.554   m a x   0.538   0.545   0.544   V G G 16 ( M i c r os of t  C O C O )   s um   0.545   0.521   0.516   m a x   0.524   0.525   0.522   Z F  ( P a s c a l  V O C )   s um   0.550   0.539   0.538   m a x   0.534   0.544   0.540   E uc l i di e n   s i m i l a r i t y m e t r i c   V G G 16 ( P a s c a l  V O C )   s um   0.551   0.551   0.554   m a x   0.538   0.545   0.544   V G G 16 ( M i c r os of t  C O C O )   s um   0.545   0.521   0.516   m a x   0.524   0.525   0.522   Z F  ( P a s c a l  V O C )   s um   0.550   0.539   0.538   m a x   0.534   0.544   0.540   M a nha t a n   s i m i l a r i t y m e t r i c   V G G 16 ( P a s c a l  V O C )   s um   0.550   0.550   0.545   m a x   0.540   0.543   0.538   V G G 16 ( M i c r os of t  C O C O )   s um   0.543   0.513   0.507   m a x   0.527   0.529   0.526   Z F  ( P a s c a l  V O C )   s um   0.547   0.535   0.530   m a x   0.538   0.549   0.546   C he byc he v   s i m i l a r i t m e t r i c   V G G 16 ( P a s c a l  V O C )   s um   0.497   0.482   0.493   m a x   0.470   0.451   0.469   V G G 16 ( M i c r os of t  C O C O )   s um   0.513   0.465   0.487   m a x   0.488   0.437   0.453   Z F  ( P a s c a l  V O C )   s um   0.518   0.515   0.517   m a x   0.499   0.459   0.490   M i nkow s ki   s i m i l a r i t m e t r i c   V G G 16 ( P a s c a l  V O C )   s um   0.551   0.551   0.544   m a x   0.538   0.545   0.544   V G G 16 ( M i c r os of t  C O C O )   s um   0.545   0.521   0.516   m a x   0.524   0.525   0.522   Z F  ( P a s c a l  V O C )   s um   0.550   0.544   0.536   m a x   0.534   0.544   0.540   C a nbe r r a  s i m i l a r i t y m e t r i c   V G G 16 ( P a s c a l  V O C )   s um   0.547   0.544   0.539   m a x   0.528   0.516   0.518   V G G 16 ( M i c r os of t  C O C O )   s um   0.538   0.516   0.512   m a x   0.526   0.524   0.524   Z F  ( P a s c a l  V O C )   s um   0.540   0.538   0.537   m a x   0.524   0.530   0.521   C or r ol a t i on s i m i l a r i t m e t r i c   V G G 16 ( P a s c a l  V O C )   s um   0.551   0.551   0.544   m a x   0.539   0.549   0.548   V G G 16 ( M i c r os of t  C O C O )   s um   0.545   0.520   0.524   m a x   0.524   0.522   0.517   Z F  ( P a s c a l  V O C )   s um   0.549   0.544   0.545   m a x   0.537   0.542   0.537       4.5.  Com p ar is on     I th is   s e c ti on  w e   pr e s e nt   a   c om pa r a ti ve   s tu dy  be twe e our   r e s ul ts   a nd  ot he r   r e s ul ts   obt a in e us in f is he r   ve c to r   ( F V )   a nd  ba of   vi s ua w or ( B O V W ) W he w or ki ng  on  vi de r e tr ie va a nd  im a ge   a nd  v id e o   r e tr ie va l,   our   pi pe li ne w hi c ut il iz e s   r a w   f a s te r   R - C N N   f e a t ur e s out pe r f or m e a ll   ot he r   te c hni qu e s .   T he   r e s ul ts  a r e  di s pl a ye d i T a bl e  3.         Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938         I m age  and v id e o f ac e  r e t r ie v al  w it h que r y  i m age  u s in   ( I m a ne  H ac hc hane )   107   T a bl e  2. M e a n a ve r a g e  pr e c is io n ( m A P )  of  t he  f in e - tu ne d F a s te r  R - C N N  m ode ls  w it h V G G 16 a r c hi te c tu r e s   f in e - tu ne d w it h F a c e s c r ub or  F e r e a nd F a c e s 9 r e s p e c ti ve ly   M e t r i c s   M ode l s   P ool i ng   R a nki ng   Re - r a nki ng   QE   C os i ne  s i m i l a r i t y m e t r i c   V G G 16( F a c e s c r ub) .   s um   0.757   0.737   0.706   m a x   0.738   0.731   0.756   V G G 16( F e r e t  a nd F a c e s 94)   s um   0.577   0.570   0.563   m a x   0.554   0.564   0.572   E uc l i di e n s i m i l a r i t y m e t r i c   V G G 16( F a c e s c r ub) .   s um   0.757   0.737   0.706   m a x   0.738   0.731   0.756   V G G 16( F e r e t  a nd F a c e s 94)   s um   0.577   0.570   0.563   m a x   0.554   0.564   0.572   M a nha t a n s i m i l a r i t y m e t r i c   V G G 16( F a c e s c r ub) .   s um   0.738   0.695   0.734   m a x   0.750   0.746   0.762   V G G 16( F e r e t  a nd F a c e s 94)   s um   0.565   0.561   0.553   m a x   0.562   0.573   0.580   C he byc he v s i m i l a r i t y m e t r i c   V G G 16( F a c e s c r ub) .   s um   0.545   0.555   0.562   m a x   0.564   0.579   0.605   V G G 16( F e r e t  a nd F a c e s 94)   s um   0.504   0.513   0.514   m a x   0.495   0.501   0.500   M i nkow s ki  s i m i l a r i t y m e t r i c   V G G 16( F a c e s c r ub) .   s um   0.757   0.727   0.747   m a x   0.738   0.731   0.756   V G G 16( F e r e t  a nd F a c e s 94)   s um   0.577   0.570   0.560   m a x   0.554   0.564   0.572   C a nbe r r a  s i m i l a r i t y m e t r i c   V G G 16( F a c e s c r ub) .   s um   0.742   0.742   0.760   m a x   0.723   0.731   0.737   V G G 16( F e r e t  a nd F a c e s 94)   s um   0.567   0.569   0.568   m a x   0.556   0.558   0.552   C or r ol a t i on s i m i l a r i t y m e t r i c   V G G 16( F a c e s c r ub) .   s um   0.757   0.728   0.749   m a x   0.741   0.731   0.748   V G G 16( F e r e t  a nd F a c e s 94)   s um   0.577   0.570   0.563   m a x   0.557   0.568   0.573       T a bl e  3. C om pa r a ti ve   s tu dy w it ot he r  t e c hni que s R e s ul t s  pr ovi de d a s  m A P   M e t hod   Y ouT ube  F a c e s   D a t a ba s e +F a c e s c r ub   ( a n i m a ge  a nd vi de o da t a s e t )   Y ouT ube  F a c e s  D a t a ba s e   ( a  vi de o da t a s e t )   F E R E T   ( a n i m a ge  da t a s e t )   O ur  pi pe l i ne   0.762   0.903   0.8913   F a s t e r  R - C N N  f e a t ur e s +F V   [ 21]   0.006   0.006   -   F a s t e r  R - C N N  f e a t ur e s +B O V W   [ 21]   -   0.001   -   L og I C A  I I +K N N   [ 38]   -   -   0.3553   L og I C A  I +K N N   [ 38]   -   -   0.3608   L G H P  de s c r i pt or   [ 7]   -   -   0.5460       5.   C O N C L U S I O N   I th is   pa pe r w e   de m ons tr a te   how   to   us e   C N N   f e a tu r e s   f r om   a obj e c de te c ti on  ne twor f o r   im a ge   a nd  vi de f a c e   r e tr ie va u s in one   qu e r im a ge W e   us e F a s te r   R - C N N   f e a tu r e s   a s   our   gl oba a nd  lo c a de s c r ip to r s   in   our   e nd - to - e nd  pi pe li ne W e   d e m ons tr a te th a th e   be s s im il a r it m e tr ic   to   us e   w it th e   of f - th e - s he lf   f e a tu r e   is   th e   c os in e   s im il a r it m e tr ic a nd  th a th e   be s one   to   u s e   w it r e f in e n e twor ks   is   th e   M a nha tt a s im il a r it m e tr ic W e   a l s f ound  th a s um - pool in ge ne r a ll pe r f or m s   be tt e r but   w he u s in th e   f in e - tu ne d ne twor ks  w it h t he  M a nha tt a n s im il a r it y m e tr ic s , m a x - pool in g ga ve  t he  be s r e s ul ts . W e  e s ta bl is he d   th a r e r a nki ng  s tr a te gi e s   c a im pr ove   th e   r e s ul ts .   M os t   im por ta nt ly w e   pr ove th a f in e tu ne d   ne twor ks   gi ve   th e   be s r e s ul ts S o,  w he w or ki ng  on   im a ge   a nd  vi de f a c e   r e tr ie va us in one   que r im a ge w e   f ound  th e   be s r e s ul ts   w e r e   obt a in e u s in a   f in e - tu ne ne twor c o m bi ne w it m a x - pool in g,  a ll   our   r e r a nki ng   s tr a te gi e s   a nd  us in th e   M a nha tt a s im il a r it m e tr ic .   W e   de te r m in e th a F in e tu ne C N N   f e a tu r e   c a gi ve   gr e a r e s ul ts   ( 76,2% )   in   r e a ti m e   ( 17  s e c onds   pe r   que r im a ge )   w he w or ki ng  on  im a ge   a nd   vi de f a c e   r e tr ie va us in g a  que r y i m a ge .       A C K N O WL E D G E M E N T S     T hi s   w or f a ll s   w it hi th e   s c op e   of   B ig   D a t a   a nd  C onne c te d   O bj e c ( B D C O ) W e   w oul li ke   to   th a nk t he  H a s s a n I I  U ni ve r s it y of  C a s a bl a n c a  f or  f in a nc in g t hi s  pr oj e c t.       R E F E R E N C E S   [ 1]   D F e ng,  M . - G L i a ng,  F G a o,  Y . - C H ua ng,  X . - F Z ha ng,  a nd  L . - Y D ua n,  T ow a r ds   l a r ge - s c a l e   obj e c t   i ns t a nc e   s e a r c h:   A   m ul t i - Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 11 , N o.  1 M a r c h 20 22 1 02 - 1 09   108   bl oc N - a r T r i e ,”   I E E E  T r ans ac t i ons   on  C i r c ui t s   and  Sy s t e m s   f o r   V i de T e c hnol ogy vol 31,  no.  1,  pp.  372 386,   J a n.  2021,  doi :   10.1109/ T C S V T .2020.2966541.   [ 2]   S S T s a i   e t   a l . M obi l e   pr oduc t   r e c ogni t i on,”   i P r oc e e di ngs   of   t he   i nt e r nat i o nal   c onf e r e nc e   on  M ul t i m e di a - M M   10 2010,  A r t no. 1587, doi :  10.1145/ 1873951.1874293.   [ 3]   A S a l va dor X G i r o - i - N i e t o,  F M a r que s a nd  S S a t oh,  F a s t e r   R - C N N   f e a t ur e s   f or   i ns t a nc e   s e a r c h,”   i 2016  I E E E   C onf e r e nc e   on C om put e r  V i s i on and P at t e r n R e c ogni t i on W or k s hop s  ( C V P R W ) J un. 2016,  pp. 394 401, doi :  10.1109/ C V P R W .2016.56.   [ 4]   C. - W L i n   a nd  S H ong,  H i gh - or de r   hi s t ogr a m - ba s e d   l oc a l   c l us t e r i ng  pa t t e r ns   i pol a r   c oor di na t e   f or   f a c i a l   r e c ogni t i on  a n d   r e t r i e va l ,”   T he  V i s ual  C om put e r , M a r . 2021, doi :  10.1007/ s 00371 - 021 - 02102 - 9.   [ 5]   F. - C L i n,  H . - H N go,  a nd  C . - R D ow A   c l oud - ba s e f a c e   vi de r e t r i e va l   s ys t e m   w i t de e l e a r ni ng,”   T he   J our nal   o f   Supe r c om put i ng , vol . 76, no. 11, pp. 8473 8493, N ov. 2020, doi :  10.1007/ s 112 27 - 019 - 03123 - x.   [ 6]   I H a c hc ha ne A B a dr i A S a he l a nd  Y R ui c he k,  N e w   f a s t e r   R - C N N   ne ur ona l   a ppr oa c f or   f a c e   r e t r i e va l ,”   i L e c t ur e   N ot e s   i n   N e t w or k s  and Sy s t e m s , S pr i nge r  I nt e r na t i ona l  P ubl i s hi ng, 2019, pp. 113 120.   [ 7]   S R D ube y,   L oc a l   di r e c t i ona l   r e l a t i on  pa t t e r f or   unc on s t r a i ne a nd   r obus t   f a c e   r e t r i e va l ,”   M ul t i m e di T ool s   and   A ppl i c at i ons vol . 78, no. 19, pp. 28063 28088, O c t . 2019, doi :  10.1007/ s 11042 - 019 - 07908 - 3.   [ 8]   L L i u,  J L i L N i u,  R X u,  a nd  L Z ha ng,  A c t i vi t i m a ge - to - vi de r e t r i e va l   b di s e nt a ngl i ng  a ppe a r a nc e   a nd  m ot i on,”   i P r oc e e di ngs  of  t he  A A A I  C onf e r e nc e  on A r t i f i c i al  I nt e l l i ge nc e , 2021, pp. 2145 2153.   [ 9]   J P ont - T us e t P A r be l a e z J T B a r r on,  F .   M a r que s a nd  J M a l i k,  M ul t i s c a l e   c om bi na t or i a l   gr oupi ng  f or   i m a ge   s e gm e nt a t i on   a nd  obj e c t   pr opos a l   ge ne r a t i on,”   I E E E   T r ans ac t i ons   on   P at t e r A nal y s i s   and  M ac hi ne   I nt e l l i ge nc e vol 39,  no.   1,  pp.  128 140 ,   J a n. 2017, doi :  10.1109/ T P A M I .2016.2537320.   [ 10]   J L ong,  E S he l ha m e r a nd  T D a r r e l l F ul l c onvol ut i ona l   ne t w or ks   f or   s e m a nt i c   s e gm e nt a t i on,”   i 2015  I E E E   C onf e r e nc e   o n   C om put e r  V i s i on and P at t e r n R e c ogni t i on ( C V P R ) J un. 2015, pp. 3431 3440,  doi :  10.1109/ C V P R .2015.7298965.   [ 11]   A F D e   A r a uj o,  L a r ge - s c a l e   vi de o   r e t r i e va l   us i ng  i m a ge   que r i e s   a   di s s e r t a t i on  s ubm i t t e t t he   de p a r t m e nt   of   e l e c t r i c a l   e ngi ne e r i ng  a nd  t he   c om m i t t e e   on   gr a dua t e   s t udi e s   of   s t a nf or d   uni ve r s i t i n   pa r t i a l   f ul f i l l m e nt   o f   t he   r e qui r e m e nt s   f o r   t he   d e gr e e   of  doc t or  of  phi l os ,”  2016.     [ 12]   J oe   Y ue - H e i   N g,  M H a us kne c ht ,   S V i j a ya na r a s i m ha n,   O V i nya l s R M o ng a a nd  G T ode r i c i B e yond  s hor t   s ni ppe t s :   D e e p   ne t w or ks   f or   vi de c l a s s i f i c a t i on,”   i 2015  I E E E   C onf e r e nc e   on  C om put e r   V i s i on  and  P at t e r R e c ogni t i on  ( C V P R ) J un.  2015,   pp. 4694 4702, doi :  10.1109/ C V P R .2015.7299101.   [ 13]   K S i m onya a nd  A Z i s s e r m a n,  T w o - s t r e a m   c onvol ut i ona l   ne t w or ks   f or   a c t i on  r e c ogni t i on  i vi de os ,”   J un.  2014,  [ O nl i ne ] .   A va i l a bl e :  ht t p: / / a r xi v.or g/ a bs / 1406.2199.   [ 14]   D T r a n,  L B our de v,   R F e r gus L . T or r e s a ni a nd  M P a l u r i L e a r ni ng  s pa t i ot e m por a l   f e a t ur e s   w i t 3D   c on vol ut i ona l   ne t w or ks ,”   i 2015 I E E E  I nt e r nat i onal  C onf e r e nc e  on C om put e r  V i s i on ( I C C V ) , D e c . 2015, pp. 4489 4497, doi :  10.1109/ I C C V .2015.510.   [ 15]   D G L ow e D i s t i nc t i ve   i m a ge   f e a t ur e s   f r om   s c a l e - i nva r i a nt   ke ypoi nt s ,”   I nt e r nat i onal   J our nal   of   C om put e r   V i s i on vol 60,  no.   2, pp. 91 110, N ov. 2004, doi :  10.1023/ B : V I S I .0000029664.99615.94.   [ 16]   M C a l onde r V L e p e t i t C S t r e c ha a nd  P F ua B R I E F :   B i na r r obus t   i nde pe nde nt   e l e m e nt a r f e a t ur e s ,”   i L e c t ur e   N ot e s   i n   C om put e r  Sc i e n c e , S pr i nge r  B e r l i n H e i de l be r g, 2010, pp. 778 792.   [ 17]   A B a be nko,  A S l e s a r e v,  A C hi gor i n,  a nd  V L e m pi t s ky,  N e ur a l   c ode s   f or   i m a ge   r e t r i e va l ,”   S pr i nge r   I nt e r na t i ona l   P ub l i s hi ng,  2014, pp. 584 599.   [ 18]   Y . K a l a nt i di s C . M e l l i na , a nd S .  O s i nde r o, “ C r os s - di m e ns i on a l  w e i ght i ng f or  a ggr e ga t e d de e p c onvol ut i ona l  f e a t ur e s ,”  i n   L e c t ur e   N ot e s  i n C om put e r  Sc i e nc e , S pr i nge r  I nt e r na t i ona l  P ubl i s hi ng, 2016, pp. 685 701.   [ 19]   A S R a z a vi a n,  J S ul l i va n,  S .   C a r l s s on,  a nd  A M a ki V i s ua l   i ns t a nc e   r e t r i e va l   w i t de e c onvol ut i ona l   ne t w or ks ,”   I T E   T r ans ac t i ons  on M e di a T e c hnol ogy  and A ppl i c at i ons , vol . 4, no. 3, pp. 251 25 8, 2016, d oi :  10.3169/ m t a .4.251.   [ 20]   L W u,  Y W a ng,  Z G e Q H u,  a nd  X L i S t r uc t ur e de e ha s hi ng  w i t c onvol ut i ona l   ne ur a l   ne t w or ks   f or   f a s t   pe r s on  r e - i de nt i f i c a t i on,”   C om put e r  V i s i on and I m age  U nde r s t andi ng , vol . 167, pp. 63 73, F e b. 2018, doi :  10.1016/ j .c vi u.2017.11.009.   [ 21]   I H a c hc ha ne A B a dr i A S a he l a nd  Y R ui c he k,  L a r ge - s c a l e   i m a ge - to - vi de f a c e   r e t r i e va l   w i t h   c onvol ut i ona l   ne ur a l   ne t w or k   f e a t ur e s ,”   I A E I nt e r nat i onal   J our nal   of   A r t i f i c i al   I nt e l l i ge nc e   ( I J - A I ) ,   vol 9,  no.  1,  pp.   40 45,  M a r 2020 doi :   10.11591/ i j a i .v9.i 1.pp40 - 45.   [ 22]   C Z ha ng,  B H u,  Y S uo,  Z Z ou,  a nd  Y J i L a r ge - s c a l e   vi de o   r e t r i e va l   vi a   de e l oc a l   c onvol ut i ona l   f e a t ur e s ,”   A dv anc e s   i n   M ul t i m e di a , vol . 2020, pp. 1 8, J un. 2020, doi :  10.1155/ 2020 / 7862894.   [ 23]   L Z he ng,  Y Y a ng,  a nd   Q T i a n,  S I F T   m e e t s   C N N :   A   d e c a de   s ur ve of   i ns t a nc e   r e t r i e va l ,”   I E E E   T r ans ac t i ons   on  P at t e r n   A nal y s i s  and M ac hi ne  I nt e l l i ge nc e , vol . 40, no. 5, pp. 1224 1244, M a y 2018, d oi :  10.1109/ T P A M I .2017.2709749.   [ 24]   S Z ha ng,  M Y a ng,   T C our K .   Y u,  a nd   D N .   M e t a xa s ,   Q ue r s pe c i f i c   r a nk  f us i on  f or   i m a ge   r e t r i e va l ,”   I E E E   T r ans ac t i ons   o n   P at t e r n A nal y s i s  and M ac hi ne  I nt e l l i ge nc e , vol . 37, no. 4, pp. 803 815, A pr . 2015, doi :  10.1109/ T P A M I .2014.2346201.   [ 25]   S P oul l ot S T s uka t a ni A P huong  N guye n,  H J é gou,  a nd  S S a t oh,  T e m po r a l   m a t c hi ng  ke r ne l   w i t e xpl i c i t   f e a t ur e   m a ps ,”   i P r oc e e di ngs  of  t he  23r d A C M  i nt e r nat i onal  c onf e r e nc e  on M ul t i m e di a , O c t . 20 15, pp. 381 390, doi :  10.1145/ 2733373.2806228.   [ 26]   D M C h e a nd  B G i r od,  A   hybr i m obi l e   vi s ua l   s e a r c s ys t e m   w i t c o m pa c t   gl oba l   s i gna t ur e s ,   I E E E   T r ans ac t i ons   on   M ul t i m e di a , vol . 17, no. 7, pp. 1019 1030, J ul . 2015, doi :  10.1109 / T M M .2015.2427744.   [ 27]   C H e r r m a nn  a nd  J B e ye r e r F a s t   f a c e   r e c ogni t i on  by  us i ng  a i nve r t e i nd e x,”   i P r oc e di ngs   SP I E   94 05,  I m age   P r oc e s s i ng:   M ac hi ne  V i s i on A ppl i c at i ond V I I I , 940507 F e b. 2015, A r t . no. 940507, doi :  10. 1117/ 12.2078988.   [ 28]   A S R a z a vi a n,  H A z i z pour J S ul l i va n,  a nd  S C a r l s s on,  C N N   f e a t ur e s   of f - t he - s he l f :   A a s t oundi ng  ba s e l i ne   f or   r e c ogni t i on,”   i 20 14  I E E E   C onf e r e nc e   on  C om put e r   V i s i on  and  P at t e r R e c ogni t i on  W or k s hops J un.  2014,  pp.  512 519,  doi :   10.1109/ C V P R W .2014.131.   [ 29]   S . R e n, K . H e , R G i r s hi c k, a nd J . S un, “ F a s t e r  R - C N N :  T ow a r ds  r e a l - t i m e  obj e c t  de t e c t i on w i t h r e gi on pr opos a l  ne t w or ks ,”   I E E T r ans ac t i ons   on  P at t e r A nal y s i s   and  M ac hi ne   I nt e l l i ge nc e vol 3 9,  no.  6,  pp.  1137 1149,  J un.  2017,   doi :   10.1109/ T P A M I .2016.2577031.   [ 30]   R . G i r s hi c k,  F a s t   R - C N N ,”  i 2015 I E E E  I nt e r nat i onal  C onf e r e nc e  on C om pu t e r  V i s i on ( I C C V ) , D e c .  2015, pp.  1440 144 8, doi :   10.1109/ I C C V .2015.169.   [ 31]   H J i a ng  a nd  E L e a r ne d - M i l l e r F a c e   de t e c t i on  w i t t he   f a s t e r   R - C N N ,”   i 2017  12t I E E E   I nt e r nat i onal   C onf e r e nc e   on   A ut om at i c  F ac e  and G e s t ur e  R e c ogni t i on ( F G  2017) , M a y 2017, pp. 650 657, doi :  10.1109/ F G .2017.82.   [ 32]   A B Y a nde x   a nd  V L e m pi t s ky,  A ggr e ga t i ng  l oc a l   de e p   f e a t ur e s   f or   i m a ge   r e t r i e va l ,”   i 2015  I E E E   I nt e r nat i onal   C onf e r e nc e   on C om put e r  V i s i on ( I C C V ) , D e c . 2015, pp. 1269 1277, doi :  10.1109/ I C C V .20 15.150.   [ 33]   G T ol i a s R S i c r e a nd  H J gou,  P a r t i c ul a r   obj e c t   r e t r i e va l   w i t h   i nt e gr a l   m a x - pool i ng  of   C N N   a c t i va t i ons ,”   C om put e r   V i s i on   and P at t e r n R e c ogni t i on , N ov. 2015, [ O nl i ne ] . A va i l a bl e :  ht t p: / / a r xi v.or g/ a bs / 1511.05879.   [ 34]   L W ol f T H a s s ne r a nd   I M a o z F a c e   r e c ogni t i on  i n   unc ons t r a i ne d   vi de o s   w i t m a t c he ba c kgr ound  s i m i l a r i t y,”   i n   C V P R   2011 , J un. 2011, pp. 529 534, doi :  10.1109/ C V P R .2011.5995566.   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938         I m age  and v id e o f ac e  r e t r ie v al  w it h que r y  i m age  u s in   ( I m a ne  H ac hc hane )   109   [ 35]   H. - W N a nd   S W i nkl e r A   da t a - dr i ve a ppr oa c h   t c l e a ni ng   l a r ge   f a c e   da t a s e t s ,”   i 2014   I E E E   I nt e r n at i onal   C onf e r e nc e   on   I m age  P r oc e s s i ng ( I C I P ) , O c t . 2014, pp. 343 347, doi :  10.1109/ I C I P .2014.702 5068.   [ 36]   P J .   P hi l l i ps H .   W e c hs l e r J H ua ng,   a nd  P .   J .   R a us s T he   F E R E T   da t a ba s e   a nd  e va l ua t i on  pr oc e dur e   f or   f a c e - r e c ogni t i on   a l gor i t hm s ,”   I m age  and V i s i on C om put i ng , vol . 16, no. 5, pp. 295 306, A pr . 1998, doi :  10.1016/ S 0262 - 8856( 97 ) 00070 - X.   [ 37]   D . L . S pa c e k, “ F a c e s 94 a  f a c e  r e c ogni t i on da t a s e t ,”  2007.   [ 38]   M K B how m i k,  P S a ha A S i ngha D B ha t t a c ha r j e e a nd  P D ut t a E nha nc e m e nt   of   r obus t ne s s   of   f a c e   r e c ogni t i on  s y s t e m   t hr ough  r e duc e ga us s i a ni t i L og - I C A ,”   E x pe r t   Sy s t e m s   w i t A ppl i c at i ons vol 116,  pp.  96 107,   F e b.  2019,  doi :   10.1016/ j .e s w a .2018.08.047.       B I O G R A P H I E S  O F  A U T H O R S       Imane  Hachchane           is  a   Ph . D .   student   in  Image   processing  at   th EEA   and   TI  Laboratory,  Hassan  II  University  Casablanca,  Faculty  of   Scienc es  and  Technology  of  Mohammedia  (FSTM)  in  Morocco.   She  received   her  Software  Engin eering  Degree  from  th e   National School  of Applied Sciences  of  K en itra, Moroc co  in 2016. Sh e’s cur rently wor king on   Facial  Large  Scale  Image   Retrieval  under  the   supervision  of  Pr.   A.  B adri.  Her  main  research   interest  is  to  enhance   the  accura cy  and  speed  of  largesca le  image  and  video  face  retrieva l   using  neural  networks  a nd  deep  learning.  She   can  be  contacted  at  email:   hachchaneimane@gmail.com .         Abdelmajid  Badri           is  a   holder  of   doctorate   in  Electronics   and  Im age  Processing  in  1992  at   the  University   of   Poitiers Franc e.  In  1996,   he  obtain ed  the  diploma  of  the   authorizat ion  to   Manage  Researches  (Habilitation   à  Diriger  des  Re cherches:  HDR)  to  the   University  of  Poitiers Franc e,  on   the  image  processing.  He  is  direct or  at  the  Higher  School   of Technology (ES T) at Casablanca and he  is   a   University  Professor ( PES - C) at the  Univer sity   Hassan  II - Casablan ca - Morocco  (FSTM).  He  is  member  of  the  laboratory  EEA  and   TI   (Electronics,  Energy,  Automatic  and  informatio Processing)   which  he  managed  since  1996.   He  managed  several  doctoral   theses.  He  is   co - author   of  several   n ational  and  international  publications.  He  is  responsible  for  several  research   projects  financed  by  the  ministry  or  by  the   industrialists.  He  was  member  of  several  committees  of  programs  of  i nternationa confere nces  and  president  of  three  international  congresses  in  the  same   domain.  He  is  member  and  co - responsibl in  several   scientific  association s   in  touch   with  his   domai of  research.   H e   can   be  contacted  at  email:  abdelmaji d_badri@ yahoo.fr .         Aïcha   Sahel           is   holder   of  doctorate   in   Electronics   and   Image   Processing   in   1996   at  the  University  of  Poitiers - Franc e.  She  is  university  Prof essor  at  the  University  Hassan  II - Casablan ca - Morocco  (FSTM)  She   is  a   member  of  the   labo ratory  EEA  and   TI.   The   research  works  of  A.  Sahel  concern  the   Communicat ion  and   I nformation   Technology   (Ele ctronics  System s,  Signal /Image  Processi ng  and   Telecommunication).   She  co - supervises   doctoral  theses  and  she  is  co - author  of  several  national   and  internati onal  publications.  She  is  member  in  financed  research  projects.   She  was  member  of  steering  commi ttees  of  three   internationa congresse in  the  same   domain   of  research Sh e   can   be  contacted  at  email:   sahel_ai@yahoo.fr.         Ilham  Elmourabit           is  hold er  of  a   doctorate  in   Telecomm unication  and   information  engineer ing   in  2011  at  the   University  Hassan  II - Casabl anca - Morocco  (FSTM) She  is  university  Professor  at  the   Hassan  II  University  Casablanca,  Faculty  of  Sciences  and  Technology  of  Mohammedia  (FSTM)   in  Morocco She   is  a   member   of  the  laboratory   EEA  and   TI.  The  research  works  of  I .   Elmourabit  concern  the   Commun ication  and   Information   Technology She  co - supervises  doctoral  theses  and   she  is  co - author   of  several  national   and   internationa l publications . Sh e   can be  contacted  at  email elmourabi t.ilham @ gmail.co m .         Yassine  Ruichek           (Senior  Member,  IEEE)  received   the  Ph.D.   de gree  in  control  and  computer  engineering  and  the   Habilitation  à  Diriger  des   Reche rches  (HDR)  degree  in   physic  science  from  the  University  of   Lille,  France,  in  1997   and  2 005,  respectively.  Since  2007,  he  has  been  a   Full  Professor  with  the  University  of  Technology  of  Belfort - Montbéliard  (UTBM).  His  research  interests  include  computer   vision,  image  p rocessing  and  analysis,   pattern recognition, data fusion,  and localization,  with applications  in i ntelligent transportat ion   systems and video surve illance.   He   can be cont acted at  email yassine.ruichek@ut bm.fr .     Evaluation Warning : The document was created with Spire.PDF for Python.