I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   9 ,   No .   4 A u g u s t   201 9 ,   p p .   2 9 3 2 ~2 9 4 0   I SS N:  2 0 8 8 - 8 708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v9 i 4 . p p 2 9 3 2 - 2940          2932       J o ur na l ho m ep a g e h ttp : //ia e s co r e . co m/ jo u r n a ls /in d ex . p h p / I JE C E   Na tural  l a ng ua g d escriptio n o i ma g es  u sing   h y brid  r ecu rren n eura n etw o rk       M d.  Asi f uzza m a n J is ha n,  K ha n Ra qib   M a h m u d,  Abul   K a la m   Al  Aza d   De p a rtme n o f   Co m p u ter S c ien c e   a n d   E n g in e e rin g ,   Un iv e rsit y   o f   Li b e ra A rts  Ba n g lad e sh ,   Dh a k a - 1 2 0 9 ,   Ba n g lad e sh       Art icle  I nfo     AB ST RAC T     A r ticle  his to r y:   R ec eiv ed   Sep   26 ,   2 0 1 8   R ev i s ed   Mar   2 1 ,   2 0 1 9   A cc ep ted   A p r   4 ,   2 0 1 9       W e   p re se n ted   a   lea rn in g   m o d e th a g e n e ra ted   n a tu ra l   lan g u a g e   d e sc rip ti o n   o f   im a g e s.  T h e   m o d e u ti li z e d   t h e   c o n n e c ti o n b e tw e e n   n a tu ra lan g u a g e   a n d   vi su a d a ta  b y   p ro d u c e d   tex l in e   b a s e d   c o n ten ts  f ro m   a   g i v e n   im a g e .   Ou Hy b rid   Re c u rre n Ne u ra N e tw o rk   m o d e is  b a se d   o n   th e   i n t rica c ies   o Co n v o l u ti o n a Ne u ra Ne tw o rk   (CNN ),   L o n g   S h o rt - T e rm   M e m o r y   ( L S T M ),   a n d   Bi - d irec ti o n a Re c u rre n t   Ne u ra Ne tw o rk   (BRNN )   m o d e ls.   We   c o n d u c ted   e x p e rim e n ts  o n   th re e   b e n c h m a rk   d a tas e ts,  e . g . ,   F li c k r8 K,   F li c k r3 0 K,  a n d   M S   COCO .   Ou h y b rid   m o d e u ti li z e d   L S T M   m o d e to   e n c o d e   tex li n e   o se n ten c e in d e p e n d e n t   o f   th e   o b jec l o c a ti o n   a n d   BRNN   f o w o rd   re p re se n tatio n ,   t h is  re d u c e d   th e   c o m p u tatio n a c o m p lex it i e w it h o u t   c o m p ro m isin g   th e   a c c u ra c y   o f   t h e   d e sc rip to r .   T h e   m o d e p ro d u c e d   b e tt e a c c u ra c y   in   re tri e v in g   n a tu ra lan g u a g e   b a se d   d e sc rip ti o n   o n   th e   d a tas e t.   K ey w o r d s :   Bi - d ir ec tio n al  r ec u r r en n e u r a l   n et w o r k   L o n g   s h o r t - ter m   m e m o r y   Natu r al  la n g u a g d escr ip to r s   C o n v o lu tio n al  n e u r al  n e t w o r k   H y b r id   r ec u r r en t n e u r al  n et w o r k     Co p y rig h ©   2 0 1 9   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts re se rv e d .   C o r r e s p o nd ing   A uth o r :   Md .   A s i f u zz a m a n   J is h an ,   Dep ar t m en t o f   C o m p u ter   Sc ie n ce   an d   E n g i n ee r in g ,   Un i v er s it y   o f   L ib er al  A r ts   B an g lad es h ,   Dh a n m o n d i,  Dh a k a - 1 2 0 9 ,   B an g lad es h .   E m ail: j is h a n 9 0 0 @ g m ai l.c o m       1.   I NT RO D UCT I O N     A   p r i m ar y   m o t iv at io n   of   co m p u tatio n a l   v is u al   tas k s   is   to   e m u late   th e   r e m ar k ab le   h u m an   ca p ab ilit y   to   co m p r e h en d   v i s u al   s ce n e s   a n d   in ter p r et   d etailed   in f o r m at io n   f r o m   t h e m   w i th   asto n is h i n g   a cc u r ac y   [ 1 ] .   Fo r   an   ar tif icial   s y s t em   to   e m u late  th i s   ca p ab ilit y   o f   i m ag e   d escr ip ti o n   is   n o t   m er el y   r e s tr icted   to   r ec o g n izi n g   i m a g es,   r ath er   it  is   i m p o r tan to   u n d er s tan d   b o th   s y n tact ic  an d   s e m a n tic  m ea n in g   o f   th i m a g es,  th a is   to   s a y ,   t h tas k   m u s i n v o l v e   u n d er s ta n d i n g   t h co n te n ts   of   th e   i m a g e   a n d   also   th e   i n ter ac tio n s   a m o n g   th e   co n ten t s   [2 - 6 ] .   I m ag e   d escr ip tio n   t y p icall y   i s   th e   g e n er atio n   of   n at u r al   la n g u ag e   b ased   tex tu al   d escr ip tio n   of   an   i m a g e   w h ic h   h as   b ee n   an   ac ti v e   ar ea   of   r ese ar ch   [7 - 1 2 ] .     Fig u r 1   d ep icts   an   ex a m p le  w h er th i m a g h a s   b ee n   u til ized   to   ex tr ac n atu r al  la n g u ag b ased   s in g le  s e n te n ce   d escr ip tio n   f r o m   t h ap p ar en v i s u al  in f o r m atio n .   Her t h s i m p le  d esc r ip t io n   d e m o n s tr ate s   th q u ite  r e m ar k ab le  d ep th   in   p er ce p tio n   o f   th i m a g i n   b o th   s y n tactica an d   s e m a n t ic  m ea n i n g   w h er e   ap p ar en tl y   t h e   o b j ec an d   s p atial  co n ten t s   in   t h i m ag ( e. g . ,   p eo p le  an d   s tr ee t)   ar e   co n n ec ted   s e m a n tical l y   w it h   th e   ac tio n   w a l k in g .   T h c o n ten t   b ased   i m ag in ter p r etat io n   tas k   o f   t h is   k i n d   i s   cr u cia in   v ar io u s   p r ac tical  ap p licatio n s   s u c h   as  a u to m at i i m ag i n d ex i n g ,   i m a g e - b ase d   w eb - s ea r c h i n g ,   au to m atic  i m ag ca p tio n in g   in   n e w s   a n d   s o cial  m ed ia  s p h er an d   m o r e   i m p o r tan t l y   i n   a u to m atic  d ia g n o s is   o f   d is ea s e s   f o llo w ed   b y   p o ten tial   au to m ated   m ed ical  ad v ice  g e n er atio n   f r o m   b io m ed ical   i m a g es   an d   so   o n .   To   f u r th er   el u cid ate   th e   p o ten tial   ap p licatio n s   of   a u to m ated   i m a g e   d escr ip tio n   t h e   f o l l o w in g   m o tiv atio n al   ex a m p les  m a y   b n o ted in   a n   i m a g o f   r o ad   w it h   co m p licated   tr af f ic  co n g e s tio n ,   f o cu s ed   ex tr ac tio n   o f   v is u al  i n f o r m atio n   m i g h h elp   w it h   s i m p le  r etr ie v al  f ea tu r es  lik n u m b er   o f   v eh ic les  o r   t y p o f   v e h icle s   o r   av er ag s ep ar ati o n   len g t h   b et w ee n   v eh ic les  i n   t h i m a g e,   o r   in   cr o w d ed   s p ac if   an y   p er s o n   p o s es  th r ea w it h   a g g r e s s i v g e s t u r e   or   by   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       N a tu r a l la n g u a g d escr ip tio n   o f ima g es u s in g   h y b r id   r ec u r r en t n eu r a l n etw o r ( Md .   A s ifu z z a ma n   Jish a n )   2933   ex p o s in g   w ea p o n s ,   a   s i m p le   an d   q u ick   co n te x t   r etr iev al   of   t h e   i m a g e   i m p l y i n g   i m m ed iate   p o ten tial   th r ea to   p u b lic  w o u ld   b m o s t   d esire d .             Fig u r 1 .   E x tr ac tio n   o f   s i m p l n atu r al  la n g u a g d escr ip ti o n   f r o m   v is u al  d ata       Giv e n   t h s cien tific   a n d   p r ac tical  i m p o r ta n ce   o f   th e   n a tu r al   lan g u a g e   b ased   d escr ip tio n   o f   i m a g es,   it  h as  b ee n   v er y   d y n a m ic  r esear ch   en d ea v o u r   w it h   to o ls   an d   tech n iq u e s   o f   b o th   tr ad itio n a m ac h in lear n in g   an d   d ee p   m ac h in e   lear n i n g   h a v b ee n   b r o u g h to   b ea r   o n   ac h iev in g   e x p ec ted   p er f o r m a n ce   [ 1 3 - 1 5 ] .   Ho w e v er ,   r estricte d   s co p o f   t h v o ca b u lar ies  f o r   d escr ib in g   v i s u al   co n ten t s   li m it s   t h v ar ietie s   o f   n ar r ativ e s   ab o u a   v is u al  s p ac e,   an d   t h te m p lat b ased   i m a g d escr ip tio n   r es tr icts   co m p le x   a n d   v ar ied   s e m atic  in ter p r etatio n ,   th o u g h   d escr ip to r   m o d els  ca n   p r o d u ce   g r a m m atica ll y   co r r ec t   tex ts .   Mo r eo v er ,   th e   g r o w i n g   s u r g e   of   i m ag e   a n d   v id eo   d atasets   [ 1 6 - 18]   p u ts   u p   ch alle n g in g   b ar s   a g ai n s th co m p u tatio n a m o d eli n g   ef f o r t s   to   g e n er ate   s y n ta ctica l l y   a n d   s e m a n ticall y   v iab le  n at u r al  lan g u a g b ase d   d escr ip tio n   b ey o n d   th p r e - ass u m ed   te m p lates   an d   clo s ed   v o ca b u lar ies.    T o   s ee k   to   cir cu m v en th s ai d   li m itatio n s   i n   d ev e lo p in g   w o r k i n g   ar ti f icial  n eu r al  s y s te m   to o to   g en er ate   n at u r al  la n g u a g b as ed   d escr ip tio n   o f   i m a g es,   r ath er   co m p le x   m o d el  is   r eq u i r ed   to   y ield   n o v el   tex t u al  d escr ip tio n   f r o m   v is u al  s ce n e s   w it h   m u lti m o d al  co m p le x itie s .   I n   t h is   s t u d y ,   w a lig n   w it h   t h i s   ap p r o ac h   b y   i m p le m e n ti n g   a   d ee p   lear n in g   h y b r id   i m a g e   d escr ip to r   m o d el  co n ca t e n at in g   C o n v o l u tio n al   Neu r al  Net w o r k s   ( C NN)   [ 1 9 ,   2 0 ] ,   L o n g   S h o r t   T e r m   M e m o r y   ( L ST M)   [ 2 1 ]   an d   B i - d ir ec tio n al  Ne u r al   Net w o r k s   ( B R NN)   [ 2 2 ]   m o d els.  W ith   th i s   h y b r id   m o d el  o u r   ap p r o ac h   is   to   em p lo y   C NN  t o   lear n   ca teg o r ical   f ea t u r es  f r o m   i m ag e s   b y   u s i n g   s o f t m a x   cla s s i f ier   f o llo w ed   b y   t h la n g u a g m o d el  L ST to   lear n   lo n g er   p atter n s   t y p ical  o f   n at u r al  lan g u a g b ased   tex t s ,   w h ic h   i n   tu r n   f o llo w ed   b y   B R NN  m o d el  to   lear n   w o r d   r ep r esen tatio n .   T h is   co n ca ten atio n   o f   i m a g cla s s i f ier   a n d   lan g u a g m o d el s   en s u r e s   lear n in g   of   m u lti m o d al   asp ec ts   of   i m ag e   co n te n ts   alo n g   w i th   th e   r elate d   n at u r al   la n g u a g e   te x t.   T h u s ,   by   bi - d ir ec ti o n al  s eq u en c in g   o f   i m a g es  an d   tex t s ,   th d ee p   lea n in g   m o d el  alo n g   w i th   it s   r ec u r r en n eu r al  n et w o r k s   co u n ter p ar ts   lear n s   r elatio n   b et w ee n   f i n er   p o r ti o n s   o f   i m a g alo n g   w it h   th r ele v an p o r tio n   o f   th s e n ten ce s .   Fu r t h er ,   f o r   th lear n in g   an d   ex ec u t io n   o f   t h m o d el  w e   h a v u s ed   t h r ee   b e n ch m ar k   v is u al  d atasets   f o r   n at u r al  la n g u a g b ased   d e s c r i p t i o n ,   e. g . ,   Fli ck r 8 K,   Fli c k r 3 0 K,   an d   MSC OC d atasets   u tili z in g   th B L E a n d   ME T E OR   m e tr ic  [ 2 3 ] .   W e   r e p o r t   a c h i e v i n g   s i g n i f ica n i m p r o v e m en i n   t h e   tex t u al   r etr iev al   f r o m   t h d atase ts   in   th e   lear n in g   a n d   tes tin g   p h ase s   b y   f i n e - tu n i n g   ar c h itect u r an d   h y p er p ar am e ter s   o f   t h e   m o d el.       2.   M E T H O DO L O G Y   2 . 1 .   B a ck end  co m p uta t io na l   m o d el   Neu r al   s y s te m   is   i n s till ed   in   co m p u tatio n al   f r a m e w o r k   to   e m u late   th e   co g n i tiv e   f u n ctio n s   of   h u m a n   ce r eb r u m   i n   r ec o g n izin g   a n d   p r o ce s s in g   v i s u al  i n f o r m ati o n .   I is   i n cr ea s i n g l y   p o p u lar   co m p u tatio n a l   f r a m e w o r k   n o w ad a y s   to   e x tr ac t   n atu r al   la n g u a g e   b ase d   d escr ip tio n   to   v is u al   in f o r m at io n .   T h er e   ar e   ess en tiall y   th r ee   i m p er ati v e   p ar ts   co n s i s ti n g   a   Neu r al  S y s te m A N ( A r ti f icial   Neu r al  Net w o r k ) ,   C NN  ( C o n v o lu t io n a l   n eu r al  s y s te m ) ,   a n d   R NN  ( R e cu r r en t N e u r al  Net w o r k ) .   C o n vo lu tio n a N eu r a N et w o r ( C N N )   i s   co n t ai n ed   at  least   o n co n v o l u tio n a la y er s   an d   af ter   th a t   to o k   a f t e r   b y   at  least  o n co m p letel y   ass o ciate d   la y er s   as   in   s ta n d ar d   m u ltil a y er   n e u r al  s y s te m .   C N N   b asicall y   u s f o r   im a g e   r ec o g n i tio n ,   v id eo   a n al y s i s   s y s te m ,   n at u r al  la n g u a g p r o ce s s i n g ,   an d   m a n y   m o r e.   I n   C NN,   in p u la y er ,   co n v o l u tio n al  la y er ,   p o llin g   la y er ,   f u ll y   co n n ec ted   la y er ,   an d   o u t p u la y er   ex i s [ 2 4 ]     ( Fig u r 2 ) .   I n   in p u t la y er   t h er e   ar th r ee   m ea s u r e m e n t s   a n d   th e y   ar w id t h ,   h ei g h t a n d   d ep th .   I t is a  f r a m e w o r k   o f   p ix el  estee m .   A t h at  p o in th co n v o l u tio n al  la y er   ex is tin g .   A   p iece   of   t h e   p ictu r e   is   ass o ciate d   w it h   th e   f o llo w in g   C o n v o l u tio n al   l a y er   in   li g h t   of   th e   f ac t   th a t   if   e v er y   o n e   o f   t h p ix el s   o f   t h in f o   is   as s o ciate d   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t 2 0 1 9   :   2 9 3 2   -   2940   2934   w it h   th e   C o n v o l u tio n al   la y er .   Fil ter ,   Ker n el,   o r   Featu r e   Dete cto r   is   li ttle  m atr i x   u s ed   f o r   h ig h li g h ts   lo ca tio n .   Af ter   co n v o lu t io n al  la y er ,   at   th at  p o in t h p o o lin g   la y er   p ar ex is ts .   P o o L a y er   p la y s   o u ca p ac it y   to   d ec r ea s th s p atial  m ea s u r e m en ts   o f   th i n f o r m atio n ,   an d   th co m p u tatio n a u n p r ed ictab ilit y   o f   o u r   m o d el.   W h at’ s   m o r e,   it  ad d itio n al l y   c o n tr o ls   o v er f itti n g .   Af ter   p o o lin g   la y er ,   f u ll y   co n n ec ted   la y er   p ar ex is ti n g   a n d   f u ll y   co n n ec ted   la y er s   in ter f a ce   each   n eu r o n   in   o n e   la y er   to   each   n e u r o n   in   a n o th er   la y er .   T h e   last   f u ll y   co n n ec ted   la y er   u ti lizes  a   s o f t m a x   i n itia tio n   w o r k   f o r   ch ar ac ter i zin g   t h p r o d u ce d   h i g h li g h ts   o f   th in f o r m atio n   p ictu r in to   d if f er en clas s es  i n   lig h o f   th e   tr ain in g   d ataset  an d   af ter   co m p leti n g   t h is   la y er   th en   w g et  a n   o u tp u t   [ 2 5 ] .           Fig u r 2 .   C o n v o l u tio n al  n e u r a l n et w o r k   ( C N N)       R ec u r r en N eu r a N et w o r ( R N N )   is   e m p lo y ed   to   m a k u ti lizatio n   o f   co n s ec u t iv d ata.   R ec u r r en t   N e u r a l   Net w o r k   tak e s   t h p r ev io u s   o u tp u o r   h id d en   s tate   as  i n p u ts .   R NN   b asicall y   u t ilized   f o r   la n g u a g e   d em o n s tr ati n g   a n d   cr ea tin g   c o n ten t,  m ac h i n tr an s latio n ,   s p ee ch   r ec o g n i tio n ,   g en er ati n g   i m a g d escr ip tio n .   W h en   it  m a k es  a   d ec is io n ,   it  th i n k s   ab o u t   th e   cu r r en t   in p u t   s tate   a n d   f u r t h er m o r e   w h at   it   h as   g ai n ed   f r o m   th e   i n f o r m atio n   s o u r ce s   it   r ec eiv ed   a l r e a d y   [ 2 6 ] .   A   r ec u r r e n n eu r al  n et w o r k   is   ab le  to   r e m e m b er   p r o ce s s e s   ex ac tl y   w h ile  w o r d   p r o ce s s   r u n n i n g   b ec au s o f   it  h a s   in te r n al  m e m o r y .   I also   p r ed ict  w h ic h   ch ar ac ter   w il l   b co m i n   n ex a n d   p r o d u ce s   o u tp u t,  co p ies  th e   o u tp u a n d   lo o p s   it  b ac k   i n to   th e   n et wo r k   p ar t.  Mo r eo v er ,   in   R NN  h a v t w o   i n p u ts ,   p r esen t a n d   th r ec en t p as t [ 2 7 ] .     Lo n g   s h o r t - term  mem o r y   ( LS T M)   is   a   s p ec ial  k i n d   o f   R N e n ab led   to   lear n   lo n g   ter m   d ep en d en cie s .   I is   w id el y   u s ed   b ec a u s e   of   it s   f ea t u r e   of   r e m e m b er in g   i n f o r m atio n   f o r   lo n g   p er io d s   of   ti m e   [ 2 8 ] .   T h is   is   d o n e   by   cr ea ti n g   s p ec ial   m o d u les  t h at  i s   d esi g n ed   to   allo w   i n f o r m atio n   to   b g a ted - i n   a n d   g a t ed - o u w h e n   n ee d ed .   Un li k tr ad itio n al  R NN,   L S T M   s to r es   in f o r m atio n   u s i n g   a   m e m o r y   ce ll   w it h   li n ea r   ac tiv atio n   f u n ctio n .   T h e   f o llo w i n g   s y s te m   of   E q u at io n   ( 1 )   g o v er n s   th ac ti v itie s   o f   L ST w h ic h   in cl u d es  t h d esig n   o f   m e m o r y   ce ll u s i n g   lo g i s tic  an d   li n ea r   u n its   w i t h   m u ltip le  in ter ac t io n s   [ 2 9 ] .     = ( (  ) + ( ) 1 + (  ) 1 + ( ) )       = ( (  ) + ( ) 1 + (  ) 1 + ( ) )       = 1 +  ( (  ) + ( ) 1 + ( ) )       ( 1 )     = ( (  ) + ( ) 1 + (  ) 1 + ( ) )       =  ( )       Her I f an d   ar r esp ec tiv el y   t h i n p u t,  f o r g e t,  o u tp u g ate  an d   m e m o r y   ce ll  ac ti v ati o n   v ec to r s .   E ac h   m e m o r y   ce l l   c t   h as   it s   n e t   in p u t   m o d u lated   by   t h e   ac ti v it y   of   an   i n p u t   g ate,   a n d   h as   its   o u tp u t   m o d u lated   by   t h e   ac t iv i t y   o f   a n   o u tp u g ate.   T h ese  in p u a n d   o u tp u t   g at es  p r o v id co n tex t - s e n s itiv w a y   to   u p d ate   th co n te n t s   o f   m e m o r y   ce l l.  T h f o r g et  g ate  m o d u late s   a m o u n o f   ac t i v at io n   o f   m e m o r y   ce ll  k ep f r o m   th p r ev io u s   ti m e   s tep ,   p r o v id in g   m et h o d   to   q u ic k l y   er ase   th co n ten ts   o f   m e m o r y   ce ll s .   T h u s   t h r es u lt in g   in ter p la y   o f   t h ese   g ate s   p av e s   th w a y   to   lear n i n g   o f   p atter n s   w it h   lo n g   d ep en d e n cies  e s p ec iall y   f ea t u r ed   in   th n at u r al  la n g u a g es   [ 3 0 ] .     2 . 2 .   Im ple m ent a t io n   2 . 2 . 1 .   Repre s ent a t io n   R ep r esen ti n g   i m a g i s   m o s t   i m p o r ta n p ar f o r   i m a g p r o ce s s i n g   an d   w g et   lo o f   id ea s   to   r e v ie m a n y   r ec en w o r k s   [ 9 ] .   W e   w atc h   t h at   s e n te n ce   d escr ip t io n   m ak e   v i s it   r ef er en ce s   to   o b j ec ts   an d   th eir   attr ib u tes [ 3 1 ] .   T h C NN  is   p r e - p r ep ar ed   o n   I m a g eNe t [ 1 6 ]   an d   f i n et u n ed   o n   th 2 0 0   class es o f   t h I m a g e   Ne t   Dete ctio n   C h alle n g e   [ 3 2 ] .   W e   m ai n ta i n   t h tec h n iq u f o r   G ir s h ic k   et   al .   [ 3 3 ]   to   d etec e ac h   o b j ec in   ea c h   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       N a tu r a l la n g u a g d escr ip tio n   o f ima g es u s in g   h y b r id   r ec u r r en t n eu r a l n etw o r ( Md .   A s ifu z z a ma n   Jish a n )   2935   i m a g w it h   R eg io n   C o n v o l u tio n al   Neu r al   Net w o r k   ( R C NN) .   T h e   R C NN   m o d el   h a s   t w o   p ar ts ,   a   r eg io n   p r o p o s al   n et w o r k   an d   an o th e r   o n e   is   b in ar y   m a s k   cla s s i f i er .   Fo llo w in g   Kar p ath y   et  al .   [ 3 1 ] ,   w u s th e   p r im ar y   1 9   id en tifie d   ar ea   d esp ite  th w h o le  p ict u r e.   T h en   co m p u te  t h r ep r esen tatio n   i n   l ig h o f   t h p ix els  I b   in s id ea c h   b o u n d i n g   b o x   as t ak es   a f ter :     = [  ( ) ] +                                                                            ( 2 )     T h e   CNN   ( I b )   ch an g es   t h e   p ix els   i n s id e   th e   b o u n d in g   box   ( I b )   to   4 0 9 6 - d im e n s io n al   e n ac t m e n t   of   th e   f u l l y   co n n ec ted   la y er   in   a   s p lit   s ec o n d   b ef o r e   t h e   clas s i f ier .   T h e   C NN   p ar a m eter s   θ c   co n tain   ar o u n d   60   m illi o n   p ar a m eter s .   T h e   m atr ix   W m   h a s   m ea s u r e m en t s   h × 4 0 9 6 ,   w h er is   t h e x te n o f   th e   m u lt i m o d al   in s er ti n g   s p ac e.   E ac h   i m ag r e p r esen t a s   h - d i m en s io n a l   v ec t o r s .   R ep r esen ti n g   s e n te n ce   i s   cr u cial  p a r o f   o u r   m o d el.   W e   u tili ze d   B id ir ec tio n al  R ec u r r en Ne u r a l   N e tw o r k   ( B R NN)   [ 2 2 ]   to   c o m p u te   th e   w o r d   r ep r esen tatio n .   B id ir ec tio n al   R ec u r r en t   Neu r a l   Net w o r k   ( B R NN)   is   a   p ar t   of   R N N   s ec tio n   a n d   wh ich   is   u s e   a   f i n ite   s eq u e n ce   to   p r ed ictio n .   In   B R NN   m o d el,   th er e   ar e   lab el   ea c h   ele m e n t   of   th e   s eq u e n ce   b ase d   o n   th p ast  a n d   f u t u r co n t ex ele m en t.  B R NN  co n d u cts   th is   s eq u e n ci n g   b y   clo s e - o u tp u o f   t w o   R NN s   a n d   o n e   p r o ce s s in g   of   th e   s eq u e n ce   is   f r o m   le f t   to   r ig h t,   th e   an o th er   s eq u e n ce   f r o m   r ig h t   to   lef t.   T h e   j o in ed   o u tp u t s   ar e   t h e   p r ed ictio n   o f   th g i v e n   tar g et  s i g n al s .   Fo r   o u r   m o d el,   th B R NN  ta k es   s eq u en ce   o f   w o r d s   an d   t h en   i tr an s f o r m s   ea ch   to   h - d i m e n s io n al  v ec to r .   Utiliz in g   t h lis 1 . . . N   to   in d icate   th s it u atio n   o f   w o r d   in   s en te n ce ,   th e x ac t s h ap o f   th B R NN  i s   as p er   th f o llo w i n g :     =       = ( + )       = ( + 1 + )        ( 3 )     = ( + + 1 + )       = ( ( + ) + )       T h e   w ei g h ts   W w   d eter m i n e   a   w o r d   in s e r ti n g   n et w o r k   th at   we   in s tate   w it h   300 - d i m en s io n al   w o r d 2 v ec   [ 3 4 ]   w ei g h ts   an d   k e ep   f ix ed   b ec au s o f   o v er f itti n g   co n ce r n s .     is   p o in ter   co lu m n   v ec to r   th at   h a s   a   s in g le  o n at  t h r ec o r d   o f   t h t - t h   w o r d   i n   w o r d   v o ca b u lar y .   T h B R NN  co m p r i s es  o f   t w o   i n d ep en d en t   s tr ea m s   o f   h a n d li n g ,   o n m o v in g   lef to   r i g h t   ( )   an d   t h o th er   r ig h to   lef t   ( ) .   W s et  th ac tiv at io n   f u n ctio n   to   th r ec ti f ier   lin ea r   u n it ( R e L U) .       2 . 2 . 2 .   Dec o din g   Dec o d in g   co n s id er s   p ictu r e   f r o m   t h tr ain in g   s et  a n d   its   co m p ar i n g   s en ten ce .   W e   ar e   u lti m atel y   in ter ested   i n   p r o d u cin g   s n ip p ets  o f   co n te n o f   s i n g le  w o r d s ,   w m i g h w an to   alig n   ex ten d ed ,   ad j ac en t   s eq u en ce s   o f   w o r d s   to   s in g le   b o u n d in g   b o x .   We   can   tr a n s late   th e   a m o u n t   v T   s t   as   t h e   u n n o r m al ized   lo g   lik eli h o o d   of   th e   t - th   w o r d   d ep ictin g   a n y   o f   th b o u n d i n g   b o x es  in   th e   i m ag e.   No te   th a t t h e   n ai v ar r an g e m en t   th at  as s i g n s   ea ch   w o r d   f r ee l y   to   th h i g h est  s co r i n g   lo ca le   is   lack i n g   in   li g h t   of   t h e   f ac t   t h at   it   p r o m p t s   w o r d s   g etti n g   s ca tter ed   co n f licti n g l y   to   v ar io u s   r eg io n s .   W e   r eg ar d   th e   g e n u i n e   ar r an g e m e n ts   as   i n ac ti v e   f ac to r s   in   a   Ma r k o v   R an d o m   Field   ( M R F)   w h er e   t h e   b in ar y   co llab o r atio n s   b et w ee n   n eig h b o r in g   w o r d s   u r g e   an   ar r an g e m en t   to   s i m ilar   d is tr i ct.   So lid l y ,   g i v en   s e n te n ce   with   w o r d s   a n d   p ictu r w it h   j u m p i n g   b o x es,   w p r esen th i n ac ti v ar r an g e m en v ar iab le  a j 1 . . . f o r   j   =   1 ...N Her e,   d ef in MR i n   ch ai n   s tr u ctu r e   alo n g   t h s e n te n ce   as tak e s   af t er     ( ) = ( ) + ( , + 1 ) ( = 1 1 ) ( = 1 )       ( = ) =     ( 4 )     ( , + 1 ) =  [ = + 1 ]       Her e,   β  i s   a   h y p er p ar a m eter   t h at  co n tr o ls   th e   p ar tialit y   to w ar d s   lo n g er   w o r d   p h r ase s .   T h is   p ar am eter   en ab les  u s   to   i n tr o d u ce   b et wee n   s in g le - w o r d   ar r an g e m e n t s   ( β  0 )   a n d   ad j u s ti n g   t h w h o le  s en te n ce   to   a   s o litar y ,   m a x i m all y   s co r i n g   a r ea   w h e n   β  is   e x te n s i v e.   T h y ield   o f   th is   p r o ce d u r is   s et  o f   i m ag ar ea s   ex p lain ed   w it h   f r ag m en ts   o f   c o n ten t.       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t 2 0 1 9   :   2 9 3 2   -   2940   2936   2 . 2 . 3 .   O pti m iza t io n   We   u tili ze   S GD   w it h   m i n i   b atch   of   100   p ictu r e   s e n te n ce   s ets   f u r th er m o r e,   s p ee d   of   0 . 9   to   o p tim izatio n   to   th ali g n m e n t   m o d el.   W e   cr o s s - ap p r o v th lear n in g   r ate  a n d   th w ei g h r o t.  W e   lik e w i s e   u tili ze   d r o p o u r eg u lar izatio n   in   all  la y er s   w it h   th e x ce p tio n   o f   in   th r ec u r r e n la y er s   [ 3 5 ]   an d   clip   g r ad ien t   ele m e n w i s at  5   ( ess e n tia l) .   T h g en er ati v R NN  is   h ar d e r   to   o p ti m iza tio n   b ec au s o f   t h w o r d   f r eq u e n c y   d if f er e n ce   b et w ee n   u n co m m o n   w o r d s   a n d   co m m o n   w o r d s .   W e   ac co m p li s h   t h b est   o u tco m es  u t ilizi n g   R MSp r o p   [ 3 6 ] .   T h at  m et h o d   is   v er s at ile  ad v a n ce   s ize  s tr ateg y   t h at  s c ale s   t h r ef r e s h   o f   ea c h   w ei g h t   b y   r u n n i n g   n o r m al  o f   i ts   g r a d ien t   s tan d ar d .       3.   SI M UL AT I O N   3 . 1 .   Da t a s et   W e   u tili ze   t h Fl ick r 8 [ 1 7 ] ,   Fli c k r 3 0 [ 2 3 ]   an d   MSC O C [ 1 8 ]   d atasets   f o r   o u r   ex p er im e n t .   Fli ck r 8 d ataset   co n ta in   8 , 0 0 0 ,   Fli ck r 3 0 K   d ataset   co n tai n   3 1 , 0 0 0   an d   MSC OC O   d ata s et   co n tain   1 2 3 , 0 0 0   i m a g es.   Fo r   F lick r 8 K   a n d   Fli c k r 3 0 d ataset,   w u til ize  1 , 0 0 0   p ictu r es f o r   v al id atio n ,   1 , 0 0 0   f o r   test in g   a n d   th e   r est  p ictu r es   f o r   tr ain i n g .   Fo r   MS   C OC O,   we   u til ize   5 , 0 0 0   im ag e s   f o r   v alid atio n   an d   test in g   b o th   p ar ts .   We   u s e   NVI DI A   G1   G A MI N G   GP U   f o r   t r a i n   th e   d ataset.     3 . 2 .   Da t a   p re pro ce s s ing   We   p r e p r o ce s s   o u r   d ataset   b ef o r e   tr ain in g   tas k .   We   co n v er t   all   s en te n ce s   of   o u r   d ataset   to   lo w er   ca s e,   d is ca r d   n o n - alp h a n u m er ic   ch a r ac ter s .   W e   f ilter   w o r d s   w h ic h   is   o cc u r   5   ti m e s   i n   t h tr ain i n g   s et,   w h ic h   r es u lt   in   2 5 3 8   w o r d s   f o r   Fli c k r 8 K,   7 4 1 4   w o r d s   f o r   Fli c k r 3 0 K,   an d   8 7 9 1   w o r d s   f o r   MSC O C O   d ataset.     3 . 3 .   I m a g p ro ce s s ing   W e   r esized   th e   i m a g e s   of   all   o u r   d atasets   to   en s u r e   b etter   g en er alit y   a n d   to   av o id   an y   n u m er ica l   in co n s is te n c y   d u r in g   tr ai n i n g   an d   test i n g   p h a s es.   We   u s e   r a w   i m a g e   f ile s   of   each   d at as et  al o n g s id e   J SON   f ile   an d   VGG   C N N   f ea tu r e s   f o r   o u r   th r ee   b en c h m ar k   d ataset   Fl ick r 8 K,   Fli ck r 3 0 K,   an d   MS C OC O.   T h e   in p u t   is   a   d ataset   of   i m a g es   a n d   5   s e n ten ce   d escr ip tio n s   w h ic h   w er e   co llected   w i th   Am az o n   Me c h a n ical   T u r k .   In   p ar ticu lar ,   t h is   co d e   b ase   is   s et   up   f o r   Fli ck r 8 K,   Fli c k r 3 0 K,   an d   MS C O C d ata s ets.  I n   t h tr ai n i n g   s ec tio n ,   all  o f   i m a g es   ar f ed   as  i n p u t o   R NN  a n d   R NN  a s k ed   to   p r e d ict   th e   w o r d   of   th e   s e n ten ce s .   Fo r   th e   p r ed ictio n   p ar t,   im a g es   ar e   p ass ed   to   R NN   an d   R NN   g e n er ates   t h e   s en ten ce   w o r d   at  ti m a n d   w g et   r esu lt  o f   o u r   ev alu a tio n   w it h   B L E an d   M E T E OR   s ca le.   W e   u s j s o n ,   d ateti m e,   p ic k le,   m at h ,   ca f f e,   n u m p y ,   s c i p y ,   te n s o r f lo w ,   co d e,   s o c k et,   ar g p ar s e,   o s ,   an d   ti m lib r ar y   f o r   o u r   i m a g to   tex g e n er atio n   w o r k .   W e   also   u s v g g _ f ea t s . m at  w h ic h   is   a   . m a f ile  a n d   th at   s to r es  th C N N   f ea tu r e s .   W e   u s 5 1 2   h id d en   la y er s   an d   f r o m   i m a g er n n . d ata_ p r o v id er   u s g etDa taP r o v id er   f o r   th is   p r o j ec t.  W e   also   i n v o l v e   s o lv er ,   d ec o d e   g en er ato r ,   ev al_ s p lit   f r o m   t h e   i m a g er n n . d ata _ p r o v id er .   We   also   u s e   i m r ea d ,   i m r e s ize   f o r   im a g e   r esizin g   or   r esh ap in g .   Af ter   co m p letin g   r esize   of   i m ag e s ,   th en   we   a tte m p t   to   tr ain   th e   w h o le   d ata s et.   As   r eg ar d s   to   t h e   co m p u tatio n al  d u r atio n ,   Fli ck r 8 tak e s   1   d a y ,   Fli ck r 3 0 tak es  1 0   d ay s ,   an d   MS C OC tak e s   2 4   d ay s   to   co m p lete  th tr ai n i n g   o f   w h o le  d ataset.         4.   RE SU L T S   W e   in v esti g ate   th e   ab ilit y   o f   t h w o r k in g   h y b r id   d ee p   lear n in g   m o d el   b y   ex p lo r in g   h o w   w ell   it   ca n   g en er ate  r ea li s tic   d escr ip tio n   of   th e   tes t   i m a g es.   We   tr ain e d   o u r   m o d el   to   lear n   th e   r ela tio n   b et w ee n   f i n er   p o r tio n s   of   i m a g e   alo n g   w it h   t h r elev a n p o r tio n   o f   t h s en t en ce s .   W e   p r esen th B L E a n d   ME T E OR   s co r e   to   ass ess   th p er f o r m an ce   o f   o u r   m o d el.   T h ese  tech n iq u es  allo w   u s   to   co m p u te  s co r th m ea s u r es  h o s en s ib le  is   th i m a g d escr ip tio n s .   T h in tu i tio n   is   to   m e asu r h o w   c lo s th m o d el  g en er ated   s e n ten c e   m atc h es  w it h   a n y   o f   th e   f iv r ef er en ce   s e n te n ce s   p r o v id ed   w i th   t h e   d ataset.   W e   r ep o r th e s e v alu a tio n   m etr ics o f   o u r   m o d el  an d   p r esen t a   co m p ar is o n   w i th   o t h er   s t ate - of - t h e - ar t   r esu lts .   We   tr ain   o u r   m o d el   on   F lick r 8 K   an d   Fli c k r 3 0 K   d atasets   a n d   o b s er v e   th e   ev a lu at io n   of   f u ll   i m a g e   p r ed ictio n s   o n   1000   test   i m a g es.   T h e   B L E U - 1,   2,   3,   4   ev alu a tio n   s co r es   an d   ME T E OR   m e tr ic   s co r e   ar e   ass es s ed   an d   a   co m p ar is o n   o f   t h e   r es u lt s   w it h   o th er   s tate - of - t h e - ar t   r esu lts   is   d eli n ea ted   in   T a b l e   1   an d   T a b l e   2.   Fo r   th e   ex p er i m e n t s ,   1 , 0 0 0   im ag es  f r o m   th e   d atase ts   ar e   u s e d   f o r   test i n g   an d   v alid atio n   p u r p o s e   an d   th e   r ests   f o r   th e   tr ain i n g   p u r p o s e.   Her e   in   t h e   T a b l e s ,   ( - )   in d icate s   an   u n k n o w n   m etr ic  o f   t h i s   d ataset   r esu lt.   Fro m   t h e x p er i m e n t   o f   tr ain in g   o u r   m o d el  o n   M SC O C O   d ataset,   w s t u d y   th e   ev a lu ati o n   o f   f u l l   i m a g p r ed ictio n s   o n   5 , 0 0 0   te s i m ag e s .   T h B L E U - 1 ,   2 ,   3 ,   4   ev alu at io n   s co r es  a n d   ME T E OR   m e tr ic  s co r e   ar ass ess ed   a n d   a   co m p ar is o n   of   t h e   r es u lts   w it h   o th er   s tate   of   th e   ar t   r esu lts   is   d eli n ea ted   in   T a b l e   3.   Fo r   th i s   ex p er i m e n t,   5 , 0 0 0   im a g es  f r o m   th d ataset s   ar u s ed   f o r   test in g   an d   v alid atio n   p u r p o s an d   th r ests   ar u s ed   f o r   th tr ain in g   p u r p o s e.   Her in   th T a b l e   3 ( - )   also   in d icate s   an   u n k n o w n   m etr ic  o f   t h is   d ataset   r es u lt.   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       N a tu r a l la n g u a g d escr ip tio n   o f ima g es u s in g   h y b r id   r ec u r r en t n eu r a l n etw o r ( Md .   A s ifu z z a ma n   Jish a n )   2937   T ab le  1 .   B L E s co r es a n d   M E T E OR   s co r f o r   Fli ck r 8 d a taset   D a t a se t   M o d e l   B L EU - 1   B L EU - 2   B L EU - 3   B L EU - 4   M ET EO R     M a o   e t   a l .   [ 3 7 ]   58   28   23   -   -     G o o g l e   N I C   [ 2 ]   63   41   27   -   -   F l i c k r 8 K   L R C N   [ 3 8 ]   -   -   -   -   -     M S   R e se a r c h   [ 3 9 ]   -   -   -   -   -     C h e n   a n d   Z i t n i c k   [ 4 0 ]   -   -   -   1 4 . 1   -     H y b r i d   R N N   M o d e l   5 2 . 6   3 4 . 4   2 1 . 8   1 4 . 1   1 6 . 4 9 5 5 4 3       T ab le  2 .   B L E s co r es a n d   M E T E OR   s co r f o r   Fli ck r 3 0 d ataset   D a t a se t   M o d e l   B L EU - 1   B L EU - 2   B L EU - 3   B L EU - 4   M ET EO R     M a o   e t   a l .   [ 3 7 ]   55   24   20   -   -     G o o g l e   N I C   [ 2 ]   6 6 . 3   4 2 . 3   2 7 . 7   1 8 . 3   -   F l i c k r 3 0 K   L R C N   [ 3 8 ]   5 8 . 8   3 9 . 1   2 5 . 1   1 6 . 5   -     M S   R e se a r c h   [ 3 9 ]   -   -   -   -   -     C h e n   a n d   Z i t n i c k   [ 4 0 ]   -   -   -   1 2 . 6   -     H y b r i d   R N N   M o d e l   5 6 . 8   3 7 . 3   2 4 . 1   1 5 . 6   1 9 . 4 4 1 4 5 2       T ab le  3 .   B L E s co r es a n d   M E T E OR   s co r f o r   MSC OC d ataset   D a t a se t   M o d e l   B L EU - 1   B L EU - 2   B L EU - 3   B L EU - 4   M ET EO R     M a o   e t   a l [ 3 7 ]   -   -   -   -   -     G o o g l e   N I C   [ 2 ]   6 6 . 6   4 6 . 1   3 2 . 9   2 4 . 6   -   M S C O C O   L R C N   [ 3 8 ]   6 2 . 8   4 4 . 2   3 0 . 4   -   -     M S   R e se a r c h   [ 3 9 ]   -   -   -   2 1 . 1   2 0 . 7     C h e n   a n d   Z i t n i c k   [ 4 0 ]   -   -   -   1 9 . 0   2 0 . 4     H y b r i d   R N N   M o d e l   6 4 . 4   4 5 . 4   3 0 . 9   2 1 . 2   1 9 . 6 1 3 2 2 7         ( a)       ( b )     Fig u r 3 .   Gr ap h ical  r ep r esen ta tio n   o f   tr ain in g   ti m u s i n g   t h r e b en ch m ar k   d ataset   ( ep o ch   v s .   ac cu r ac y   a n d   ep o ch   v s .   lo s s ) ( a)   E p o ch   v s .   lo s s ,   a n d   E p o ch   v s .   ac cu r ac y   f o r   Fli c k r 8 k ,   ( b )   E p o ch   v s .   lo s s ,   a n d   E p o ch   v s .   ac cu r ac y   f o r   Fli c k r 3 0 k   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t 2 0 1 9   :   2 9 3 2   -   2940   2938     ( c)     Fig u r 3 .   Gr ap h ical  r ep r es en ta tio n   o f   tr ain in g   ti m u s i n g   t h r e b en ch m ar k   d ataset   ( ep o ch   v s .   ac cu r ac y   a n d   ep o ch   v s .   lo s s ) ( c)   E p o ch   v s .   lo s s ,   a n d   E p o ch   v s .   ac cu r ac y   f o r   MS C OC O       We   tr ain   o u r   h y b r id   d ee p   le ar n in g   m o d el   th at   e n s u r es   le ar n in g   of   m u lt i m o d al   asp ec ts   of   i m a g e   co n ten t s   alo n g   w it h   th r elate d   n atu r al  la n g u a g te x t.  W e   r e p r esen th tr ain i n g   r esu lt  o f   e ac h   d ataset  u s i n g   i n   d if f er e n g r ap h .   I n   Fi g u r 3 ,   w r ep r ese n t h tr ai n i n g   ac c u r ac y   v s .   ep o ch   an d   lo s s   v s .   ep o ch   in   d if f er en t   g r ap h .   T h is   s h o w s   th a t o u r   m o d el  d o es n o t e n co u n ter   o v er f itt in g   p r o b le m .     4 . 1 .   Dis cu s s io n   W e   tr ain   o u r   h y b r id   m o d el  t o   g en er ate   s e n te n ce s   o n   f u ll   i m a g es   w h er w u s e   C N to   lear n   c a t e g o r i c a l   f ea tu r es  f r o m   i m a g es  an d   lan g u ag m o d el  to   ass is t h m ap p in g   f r o m   i m a g d ata  to   s eq u en ce s   o f   w o r d s ,   f o llo w ed   b y   B R NN  th at  lear n s   th e   w o r d   r ep r esen t atio n .   T h is   co n ca ten at io n   o f   i m ag e   clas s i f ier   a n d   lan g u a g m o d els  e n s u r es  lear n in g   o f   m u lti m o d al  asp ec ts   o f   i m ag co n te n t s   alo n g   w it h   th r elate d   n at u r al   lan g u a g te x t.  W e   o b s er v th a o u r   h y b r id   m o d el   can   g e n er a te   r ea s o n ab le   d escr ip tio n s   of   i m ag e s   as  s h o w n   i n   Fig u r e   4 ( a)   ev en   f o r   r elativ el y   s m a ll   or   r ar e   o b j ec ts   r ef er   Fi g u r 4 ( b )   w h ic h   is   a   s ig n i f ica n t   i m p r o v e m e n t   in   th e   te x t u al   r etr ie v al   f r o m   t h e   i m a g es.   Fo r   th e   lear n i n g   an d   test in g   p h ase   of   o u r   m o d el   we   h a v e   u s ed   t h r ee   b en ch m ar k   v is u al   d atase ts   f o r   n atu r al   la n g u a g e   b ased   d escr ip tio n ,   e. g . ,   Fli c k r 8 K,   Fli c k r 3 0 an d   MS C OC d atasets   an d   w h av r ep o r ted   th B L E an d   ME T E OR   s co r es  f o r   th co m p ar is o n .   C o m p ar ed   to   th o t h er   s tate   of   t h e   ar t   m o d el,   o u r   m o d el   s h o w s   t h e   b etter   p er f o r m an c e   or   co m p ar ab le   to   t h e m ,   as   our   m o d el   f in e - t u n es   th ar ch itect u r an d   h y p er p ar am eter s   o f   t h m o d el,   r es u lts   i n   T a b l e   1 - 3.           ( a)   Fo r   eac h   test   p ictu r e,   we   g o t   th e   m o s t   p er f ec t   test   s e n ten ce       ( b )   W e   g o th ab s o lu te  b est te s t se n ten ce   f o r   test   i m ag e     Fig u r e   4.   E x a m p le   of   s e n te n ce   p r ed icted   by   o u r   m o d el.   Fo r   ev er y   test   i m a g e,   we   g o t   th e   m o s t   co m p atib le   test   s e n ten c e       We   ev alu ated   th e   BL EU - 1,   2,   3,   4   s co r es   an d   ME T E OR   s co r es   an d   co m p ar ed   o u r   r esu lt s   w it h   th e   b en ch m ar k   r es u lts   o f   Ma o   et  al .   [ 3 7 ] ,   Go o g le  NI C   [ 2 ] ,   L R C [ 3 8 ] ,   MS  R e s ea r ch   [ 3 9 ] ,   an d   C h en   an d   Z it n ic k   [ 4 0 ]   m o d el.   Fo r   B L E U - 1   s co r e,   it   is   o b s er v ed   t h at  f o r   Fli ck r 3 0 k   o u r   m o d el  g i v es   b etter   ac cu r ac y   th a n   th Ma o   et   al .   m o d el  [ 3 7 ]   an d   f o r   M SC O C O   d ataset  w e   g et   b etter   r es u lt  t h a n   t h L R C N   m o d el  [ 3 8 ] .   Seco n d l y ,   in   B L E U - 2   e v al u ati o n ,   o u r   m o d el  g iv e s   b etter   r es u lt  f o r   all   t h r ee   b en c h m ar k   d at asets .   Fo r   B L E U - ev alu a tio n ,   w g et  b etter   p er f o r m a n ce   f o r   Fli ck r 3 0 k   a n d   MSC O C w h ic h   i s   b etter   th an   th Ma o   el  al.   m o d el  [ 3 7 ]   an d   L R C [ 3 8 ]   m o d el  r esp ec ti v el y .   Fo r   B L E U - 4   s co r e,   Fli ck r 3 0 k   a n d   MSC O C O   g iv e   b etter   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       N a tu r a l la n g u a g d escr ip tio n   o f ima g es u s in g   h y b r id   r ec u r r en t n eu r a l n etw o r ( Md .   A s ifu z z a ma n   Jish a n )   2939   p er f o r m a n ce   co m p ar ed   w it h   MS   R esear c h   [ 3 9 ] ,   an d   C h en   a n d   Z it n ic k   [ 4 0 ]   m o d el.   Fin al l y ,   w u s e   ME T E OR   ev alu atio n   an d   g e 1 6 . 4 9 5 5 4 3 ,   1 9 . 4 4 1 4 5 2   an d   1 9 . 6 1 3 2 2 7   f o r   th b en ch m ar k   d atasets   r esp ec ti v el y   an d   o b s er v i m p r o v e m e n ts   i n   o u r   r esu lts .   On li m itatio n s   o f   o th er   m o d el  is   th at  t h e y   ar u n ab le  to   g en er at e   d if f er e n p atter n   o f   s e n te n ce   r ea lizatio n s   a s   t h d ataset s   co n s is t s   o f   h an d m ad an n o tatio n s ,   b u o u r   m o d el  ca n   g en er ate  d y n a m ic  o u tp u t a s   o u r   m o d el  lear n s   to   m o d u late  t h e   m ag n it u d o f   t h r eg io n   a n d   w o r d   e m b ed d in g .   I n   s p ite  o f   th f ac t h at  o u r   o u tco m e s   ar en co u r ag i n g ,   th e   m o d el  o f   Mu l ti m o d al  R N ( R e cu r r en Neu r al  Net w o r k )   h a s   d i f f er e n t   t y p o f   li m itat io n s .   First   o f   a l l,  th i s   M u lti m o d al  R NN  m o d el  ca n   o n l y   g en er ate   d escr ip tio n   o r   s e n te n ce   o f   o n l y   o n i n p u ar r a y   an d   th a ar r a y   o f   p ix e ls   a f i x ed   r eso lu tio n .   An o th er   s en s ib le  ap p r o ac h   is   to   u s m u lti p le  s ac ca d es  id e n ti f y   t h a ll  o f   e n ti ties   ar o u n d   t h e   i m a g e   an d   t h eir   co m m o n   co llab o r atio n s   an d   m o r e x ten s iv e   s ett in g   b e f o r p r o d u cin g   d escr ip tio n .   A l s o ,   th e   R NN  ( R ec u r r en t   Ne u r al   Net w o r k )   ca n   r ec eiv t h i n f o r m at io n   of   al i m ag e s   o n l y   th r o u g h   ad d iti v b ias  i n ter ac t io n s   w h ic h   ar less   ex p r ess i v th a n   m o r co m p lic ated   m u lt ip licati v in ter ac tio n s .       5.   CO NCLU SI O N     W e   s tu d y   i n   t h is   p ap er   co m p lex   h y b r id   n e u r al  n et w o r k   m o d el  w h ich   s h o w s   r e m ar k ab le   ab ilit y   to   g en er ate  n a tu r al   lan g u ag e   b as ed   s in g le   s en te n ce   d es cr ip tio n   f r o m   a   g i v e n   tes t   i m ag e.   T h e   m o d el   id en ti f ie s   t h e   i m a g e   r eg io n   an d   g e n er ates   n atu r al   la n g u a g e   d escr ip tio n   of   i m ag e s .   O u r   ap p r o ac h   in clu d es   a   lo w er in g   of   r eso lu tio n   i m ag e s   t h at   ad j u s t ed   p ar ts   o f   v i s u al  a n d   lan g u ag e   m o d alitie s   t h r o u g h   th e   in ter p la y   o f   d ee p   co n v o lu tio n   lear n in g   m o d el  w it h   it s   e f f i c i e n t   L ST an d   B R NN  co u n ter p ar ts .   Mo r eo v er ,   w o b tain   b etter   p er f o r m a n ce   co m p ar ed   to   b en ch m ar k   r es u lt s   b y   ea r lier   atte m p t s .   W e   r ep o r p er f o r m an ce   r es u lts   w it h   ap p r o p r iate  r e p r esen tatio n   alo n g   w it h   co m p le m e n ta r y   ill u s t r atio n s   f o r   b etter   u n d er s ta n d in g .   O u r   ex p lo r atio n   o f   th m o d el  i n f er s   th at  b ette r   p er f o r m a n ce   ac r o s s   w id en i n g   r an g o f   d atasets   m a y   b a ch iev ed   v ia  m o d el  f i n e - t u n i n g   a n d   ar ch itect u r al   a u g m e n tatio n .       RE F E R E NC E S     [1 ]   L .   F e i - F e i,   e a l . ,   W h a d o   w e   p e r c e iv e   in   a   g lan c e   o f   a   re a l - w o rld   sc e n e ?   J o u rn a l   o v isi o n ,   v o l/ issu e 7 (1 ) ,   p p .   10 ,   2 0 0 7 .   [2 ]   O .   V i n y a ls,  e a l .,   S h o w   a n d   tell :   A   n e u ra im a g e   c a p ti o n   g e n e ra to r ,   a rXiv:   1 4 1 1 . 4 5 5 5 v 2 ,   2 0 1 5 .   [3 ]   O .   V in y a ls,  e a l .,   S h o w   a n d   te ll L e ss o n lea rn e d   f ro m   th e   2 0 1 5   m s c o c o   ima g e   c a p ti o n in g   c h a ll e n g e ,   a rXiv:   1 6 0 9 . 0 6 6 4 7 v 1 ,   2 0 1 6 .   [4 ]   S .   V e n u g o p a lan ,   e t   a l .,  Ca p ti o n i n g   im a g e w it h   d iv e rse   o b jec ts,   a rXiv:   1 6 0 6 . 0 7 7 7 0 v 3 ,   2 0 1 7 .   [5 ]   L.   J.   Li   a n d   L.   F e i - F e i ,   W h a t,   w h e re   a n d   w h o ?   Clas sify in g   e v e n ts   by   s c e n e   a n d   o b jec t   re c o g n it i o n ,   I CCV ,   2 0 0 7 .   [6 ]   L.   J.  L i,   e a l .,  T o w a r d s   to tal  sc e n e   u n - d e rsta n d i n g Clas sif ica ti o n ,   a n n o tati o n   a n d   se g -   m e n tatio n   in   a n   a u t o m a ti c   f ra m e w o rk ,”   Co mp u ter   Vi sio n   a n d   Pa tt e rn   Rec o g n it io n ,   I E E E   C o n f e re n c e   o n ,   p p.   2 0 3 6 - 2 0 4 3 ,   2 0 0 9 .   [7 ]   S .   F i d ler,  e a l .,   A   se n ten c e   is  w o rth   a   t h o u sa n d   p ix e ls,   CVP R ,   2 0 1 3 .   [8 ]   A .   G u p ta  a n d   P .   M a n n e m F ro m   im a g e   a n n o tatio n   t o   im a g e   d e sc ri p ti o n ,   Ne u ra i n f o rm a ti o n   p r o c e ss in g ,   S p ri n g e r,   2 0 1 2 .   [9 ]   G .   Ku lk a rn i e a l . Ba b y   talk U n d e rsta n d in g   a n d   g e n e ra ti n g   sim p le i m a g e   d e sc rip ti o n s,   CVP R ,   2 0 1 1 .   [1 0 ]   P.   Ku z n e tso v a e a l . ,   Co l lec ti v e   g e n e ra ti o n   of   n a tu ra l   im a g e   d e sc rip ti o n s ,   ACL ,   2 0 1 2 .   [1 1 ]   P.   Ku z n e tso v a e a l . ,   T re e talk :   Co m p o siti o n   a n d   c o m p re ss io n   of   tree f o r   i m a g e   d e sc rip ti o n s,   T ra n sa c ti o n s   of   t h e   Asso c ia ti o n   f o r   Co mp u t a ti o n a l   L i n g u isti c s,   v o l / i s s u e :   2 (1 0 ) ,   p p .   3 5 1 - 3 6 2 ,   2 0 1 4 .   [1 2 ]   A.   F a rh a d i,   e a l .,   Ev e r y   p ictu re   tells a sto ry G e n e ra ti n g   se n ten c e s f ro m   i m a g e s ,   ECCV ,   2 0 1 0 .   [1 3 ]   S .   Ba i   a n d   S .   A n ,   A   S u rv e y   on   Au to m a ti c   I m a g e   Ca p ti o n   G e n e ra ti o n ,   Ne u ro c o mp u ti n g ,   2 0 1 8 .   [1 4 ]   R .   Be rn a rd i,   e a l .,  A u to m a ti c   D e sc rip ti o n   G e n e ra ti o n   f ro m   I m a g e s:  A   S u rv e y   o f   M o d e ls,  Da tas e ts,  a n d   Ev a lu a ti o n   M e a su re s ,   J o u rn a l   o f   Arti fi c i a I n telli g e n c e   Res e a rc h   ( J AIR ) ,   v o l.   55,   p p .   4 0 9 - 4 4 2 ,   2 0 1 6 .   [1 5 ]   A .   Ku m a a n d   S .   G o e l,   A   su rv e y   o f   e v o lu ti o n   o f   i m a g e   c a p ti o n i n g   tec h n iq u e s ,   In ter n a ti o n a l   J o u rn a o Hy b rid   In telli g e n S y ste ms   Pre p rin t p p .   1 - 19 ,   2 0 1 7 .   [1 6 ]   J.  De n g e a l . Im a g e n e t:   A   larg e - sc a le h iera rc h ica i m a g e   d a tab a se ,   CVP R ,   2 0 0 9 .   [1 7 ]   M .   Ho d o sh e a l . F ra m in g   ima g e   d e sc rip ti o n   a a   ra n k in g   tas k d a ta,  m o d e ls   a n d   e v a lu a ti o n   m e tri c s ,   J o u r n a o f   Arti fi c ia I n telli g e n c e   Res e a rc h ,   2 0 1 3 .   [1 8 ]   T.   Y .   L in ,   e a l .,  M icro so f c o c o :   Co m -   m o n   o b jec ts i n   c o n tex t ,   a r Xi v   p re p rin t   a rXiv:   1 4 0 5 . 0 3 1 2 ,   2 0 1 4 .   [1 9 ]   Y.   L e Cu n ,   e a l .,   G ra d ien t -   b a se d   lea rn in g   a p p li e d   to   d o c u m e n t   re c o g n it io n ,   Pr o c e e d -   in g o t h e   IEE E,   v o l/ issu e 8 6 (1 1 ) ,   p p .   2 2 7 8 - 2 3 2 4 ,   1 9 9 8 .   [2 0 ]   A.   Kriz h e v sk y ,   e a l . ,   I m a g e n e t   c las sif i c a ti o n   w it h   d e e p   c o n v o l u ti o n a l   n e u ra l   n e tw o rk s ,   NIPS ,   2 0 1 2 .   [2 1 ]   S.   Ho c h re it e r   a n d   J.   S c h m id h u b e r,   L o n g   sh o rt - term   m e m o r y ,   Ne u ra l   c o mp u ta t io n ,   v o l / i s s u e :   9 (8 ) ,   p p .   1 7 3 5 - 1 7 8 0 ,   1 9 9 7 .   [2 2 ]   M.   S c h u ste r   a n d   K.   K.   P a li w a l,   Bid irec ti o n a l   re c u rre n t   n e u ra l   n e tw o rk s,   S ig n a l   Pro c e ss in g ,   IE EE   T r a n s a c t i o n s 1 9 9 7 .     [2 3 ]   P.  Y o u n g ,   e a l .,  F ro m   i m a g e   d e sc rip ti o n to   v isu a d e n o tati o n s:  Ne w   s im i -   larity   m e tri c s   f o se m a n ti c   in f e re n c e   o v e e v e n d e sc rip t io n s,   T A C L ,   2 0 1 4 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  9 ,   No .   4 A u g u s t 2 0 1 9   :   2 9 3 2   -   2940   2940   [2 4 ]   Y .   Ki m ,   Co n v o lu ti o n a Ne u ra N e tw o rk f o S e n ten c e   Clas sif ic a ti o n ,   a rXiv:   1 4 0 8 . 5 8 8 2 v 2 ,   2 0 1 4 .   [2 5 ]   D .   Cires   Ã .,   e a l .,  M u lt i - c o lu m n   De e p   Ne u ra Ne tw o rk f o Im a g e   Clas sif ic a ti o n ,   a rX iv 1 2 0 2 . 2 7 4 5 v 1 ,   2 0 1 2 .   [2 6 ]   J .   Ch u n ,   e a l .,   Em p iri c a l   Ev a lu a ti o n   of   G a ted   Re c u rre n Ne u ra Ne tw o rk o n   S e q u e n c e   M o d e li n g ,   a rXiv:   1 4 1 2 . 3 5 5 5 v 1 ,   2 0 1 4 .   [2 7 ]   Y .   F a n ,   e t   a l .,   TTS   S y n th e sis   with   Bid i   re c ti o n a l   L S T M   b a se d   Re c u rre n Ne u ra Ne tw o rk s ,   Co n fer e n c e   o th e   In ter n a t io n a S p e e c h   C o mm u n ica ti o n   Asso c ia t io n ,   2 0 1 4 .   [2 8 ]   J .   S o n g ,   e a l .,  L S T M - in - L S T M   f o g e n e ra ti n g   l o n g   d e s c rip ti o n s   o f   i m a g e s,   Co mp u ta ti o n a V isu a M e d ia ,   2 0 1 6 .   [2 9 ]   Z .   C.   L ip to n ,   e a l .,   A   Crit ica l   Re v i e w   of   R e c u rre n t   Ne u ra l   Ne t w o rk s   f o S e q u e n c e   L e a rn in g ,   a rXiv:   1 5 0 6 . 0 0 0 1 9 v 4 ,   2 0 1 5 .   [3 0 ]   J .   Oh ,   e a l . ,   A c ti o n - Co n d it i o n a V i d e o   P r e d icti o n   u sin g   De e p   N e tw o rk in   A tari  G a m e s ,   a rXiv:   1 5 0 7 . 0 8 7 5 0 v 2 ,   2 0 1 5 .   [3 1 ]   A.   K a rp a th y ,   e t   a l .,   De e p   f ra g m e n t   e m b e d d in g s   f o r   b id irec ti o n a l   im a g e   se n ten c e   m a p p in g ,   a rXiv  p re p rin a rX iv:   1 4 0 6 . 5 6 7 9 ,   2 0 1 4 .   [3 2 ]   O.   Ru ss a k o v sk y ,   e a l .,  Im a g e n e t   larg e   sc a le  v isu a re c o g n it io n   c h a ll e n g e ,   a rXiv:   1 4 0 9 . 0 5 7 5 v 3 ,   2 0 1 5 .   [3 3 ]   R.   G irsh ick ,   e a l .,   Rich   f e a tu re   h iera rc h ies   f o a c c u ra te o b jec d e t e c ti o n   a n d   se m a n ti c   se g m e n tatio n ,   CVP R ,   2 0 1 4 .   [3 4 ]   T.   M i k o l o v ,   e a l .,   Distri b u ted   re p re se n tatio n s   of   w o rd s   a n d   p h ra se a n d   t h e ir  c o m p o siti o n a li ty ,   NIPS ,   2 0 1 3 .   [3 5 ]   W .   Zare m b a ,   e a l .,  Re c u rre n n e u ra n e tw o rk   re g u lariz a ti o n ,   a rXi v   p re p rin a rXiv:   1 4 0 9 . 2 3 2 9 ,   2 0 1 4 .   [3 6 ]   T.   T iele m a n   a n d   G.   E.   Hin to n ,   Lec tu re   6 . 5 - rm sp ro p :   Div id e   t h e   g ra d ien t   by   a   ru n n in g   a v e ra g e   of   its   re c e n m a g n it u d e ,   2 0 1 2 .   [3 7 ]   J.   M a o ,   e t   a l .,   Ex p lain   ima g e s   w it h   m u lt im o d a l   re c u rre n t   n e u ra l   n e t w o rk s ,   a rXiv p re p rin a rX iv:   1 4 1 0 . 1 0 9 0 ,   2 0 1 4 .   [3 8 ]   J.  Do n a h u e ,   e a l .,  L o n g - term   re c u rre n c o n v o l u ti o n a n e tw o rk f o v is u a r e c o g n it io n   a n d   d e sc rip ti o n ,   a rXiv   p re p rin a rXiv:   1 4 1 1 . 4 3 8 9 ,   2 0 1 4 .   [3 9 ]   H.  F a n g ,   e a l . ,   F ro m   c a p ti o n s t o   v isu a c o n c e p ts an d   b a c k ,   a rXiv  p re p rin a rXiv:   1 4 1 1 . 4 9 5 2 ,   2 0 1 4 .   [4 0 ]   X .   C h e n   a n d   C.   L .   Zi tn ick ,   L e a rn in g   a   re c u rre n v isu a re p re s e n tati o n   f o im a g e   c a p ti o n   g e n e ra ti o n ,   C o RR ,   a b s/1 4 1 1 . 5 6 5 4 ,   2 0 1 4 .       B I O G RAP H I E S   O F   AUTH O RS        M d .   As ifu z z a m a n   J ish a n   is   stu d y in g   as   a   stu d e n t   of   Ba c h e lo r   of   S c ien c e   in   Co m p u ter   S c ien c e   a n d   En g in e e rin g   w it h in   t h e   De p a rtme n t   of   Co m p u ter   S c ien c e   a n d   E n g in e e rin g   at   th e   Un iv e rsity   of   L ib e ra A rts  Ba n g l a d e sh   (ULAB).  He   h a e x p e rti se   in   C,   Ja v a ,   P y th o n ,   M A T L A B   a n d   C+ +   p ro g ra m m in g   lan g u a g e .   H e   h a a lso   w o r k in g   k n o w led g e   in   d iff e r e n w e b   p ro g ra m m in g   lan g u a g e :   HT M L ,   CS S ,   Ja v a S c rip (JS),   L a ra v e f ra m e w o r k ,   a n d   d a tab a se   sy ste m .   He   h a b e e n   a c ti v e   in   t h e   re se a rc h   w it h   re se a rc h   in tere st  i n   t h e   a re a   o f   im a g e   p ro c e ss in g ,   a rti f icia in telli g e n c e ,   m a c h in e   lea rn in g   a n d   n e u r a l   s y s t e m .           K h a n   R a q i b   M a h m u d   c u rre n tl y   w o rk in g   as   a   lec tu re r   w it h in   th e   d e p a rtme n t   of   Co m p u ter   S c ien c e   a n d   En g in e e rin g   at   th e   Un iv e rsity   of   L ib e ra l   A rts   B a n g lad e sh   (U LA B).   He   h a s   c o m p lete d   Ba c h e lo r   o f   S c ien c e   (Ho n o rs)  a n d   M a ste o f   S c ien c e   in   M a th e m a ti c s   f ro m   S h a h   Ja lal  Un iv e rsit y   o S c ien c e   a n d   T e c h n o l o g y ,   Ba n g lad e sh .   He   re c e i v e d   a n   Eras m u s   M u n d u S c h o lars h i p   f ro m   th e   Ed u c a ti o n ,   A u d io v isu a l   a n d   Cu lt u re   Ex e c u ti v e   Ag e n c y   of   th e   Eu ro p e a n   Co m m issio n ,   to   p u rsu e   a   d o u b le   M a ste rs  in   S c ien c e   d e g re e   i n   C o m p u ter  S im u latio n   f o S c ien c e   a n d   En g in e e rin g   a n d   Co m p u tatio n a E n g in e e rin g ,   f ro m   Ge r m a n y   a n d   S w e d e n .   He   w a a n   M S c   th e sis  stu d e n w it h in   t h e   Co m p u tatio n a T e c h n o lo g y   L a b o ra to ry   o th e   De p a rt m e n o f   Hi g h   P e rf o rm a n c e   Co m p u ti n g   a n d   V isu a li z a ti o n   a t   KT Ro y a In stit u te  o f   T e c h n o l o g y ,   S w e d e n .   His   re se a rc h   w o rk   c o n c e n trate d   o n   th e   stu d y   o f   th e   se n siti v it y   a n a l y sis  o f   Ne a W a l l   T u rb u len c e   M o d e li n g   o f   In c o m p re ss ib le  F lo w s.  His  c u rre n re s e a rc h   in tere st  in c l u d e m a c h in e   lea rn in g   a n d   p a tt e rn   re c o g n it io n ,   im a g e   p ro c e ss in g   a n d   c o m p u ter v isio n   a n d   a d a p t iv e   d y n a m ic   s y ste m .           Abu l   K a la m   al   A z a d   re c e i v e d   h is   P h D   in   A p p li e d   M a t h e m a ti c s   f r o m   Un iv e rsit y   of   Ex e ter,   Un it e d   Kin g d o m ,   M a ste rs   of   S c ien c e   in   T h e o re ti c a l   P h y sic s   a n d   Ba c h e lo r   of   S c ien c e   in   P h y sic s   f ro m   U n i v e rsity   o f   Dh a k a .   He   is  c u rre n tl y   a n   A ss o c iat e   P r o f e ss o a th e   De p a rtm e n o f   Co m p u ter  S c ien c e   a n d   E n g in e e rin g ,   Un i v e rsit y   o f   L ib e ra A rts  Ba n g l a d e sh   (ULA B).   P re v io u sly ,   h e   u n d e rt o o k   p o st - d o c to ra re se a rc h   a De p a rt m e n o f   Co m p u ti n g   a n d   M a t h e m a ti c s,  Un iv e rsit y   o P ly m o u th ,   Un it e d   Kin g d o m ,   a n d   S c h o o l   of   Bio lo g ica l   S c ien c e s,   Un iv e rsity   of   Bristo l,   Un it e d   Kin g d o m ,   on   a   BBS RC  f e ll o ws h ip .   His   re se a rc h   in tere st   in c l u d e s   a re a s   of   th e o re ti c a l   a n d   c o m p u tatio n a l   n e u ro sc ien c e ,   c o n -   n e c to m ics ,   m u lt i - ti m e s c a le  d y n a m ics ,   se l f - or g a n ize d   c rit ica li t y   (S OC)  a n d   a rti f icia in telli g e n c e .   He   h a s   p u b li sh e d   a   n u m b e r   of   p a p e rs   in   p e e r - re v ie w e d   in tern a ti o n a l   j o u r n a ls   a n d   p re se n ted   o rig in a re se a rc h   a rti c les   in   n u m e ro u s   in tern a ti o n a l   c o n f e re n c e s.   He   re c e i v e d   v a rio u s   sc h o lars h ip s,   re se a rc h   a n d   trav e g ra n ts  a re c o g n it io n   o f   h is  re a c h   w o rk .   He   w a s a   m e m b e o f   M NN ,   OCN S   a n d   S IA M .                         Evaluation Warning : The document was created with Spire.PDF for Python.