I A E S  I n t e r n at io n al  Jou r n al  of  A r t if ic ia I n t e ll ig e n c e  ( I J - AI )   V ol .   14 , N o.   5 O c to be r   2025 , pp.  3588 ~ 3598   I S S N 2252 - 8938 ,   D O I 10.11591/ ij a i. v 14 .i 5 .pp 3588 - 3598          3588     Jou r n al  h om e page ht tp : // ij ai . ia e s c or e .c om   Fac e S yn t h :  t e xt - to - f ac e  g e n e r a t i on  u s i n g C L IP an d  i t s var i an t w i t h  ge n e r at i ve  ad ve r sar i al  n e t w or k s       P r iy ad h ar s in R avi s an k ar 1 , S h r u t h D h an van t h 2 , V ai s h n ave  Je n an e  P ad m an ab h an 2   1 D e pa r t m e nt  of  A r t i f i c i a l  I nt e l l i ge nc e  a nd D a t a   S c i e nc e , R a j a l a ks hm i  E ngi ne e r i ng C ol l e ge , C he nna i , I ndi a   2 D e pa r t m e nt  of  C om put e r  S c i e nc e , S r i  S i va s ubr a m a ni ya  N a da r  C ol l e ge  of  E ngi ne e r i ng, C he nna i , I ndi a       A r t ic le  I n f o     A B S T R A C T   A r ti c le  h is to r y :   R e c e iv e J ul  30, 2024   R e vi s e J un 27, 2025   A c c e pt e J ul  13, 2025       In  recent  years,  there  have   been  massive  developments  in   the  fi eld  of  generative  AI,  especially  in  generative  adversarial   networks  (GANs).  GANs  generate  original  images  that  haven' been  seen  during  training  and  have  had  several adva ncements like StyleGA N, StyleGAN2,  and StyleGAN2 - a daptive  discriminator augmentation   ( ADA ) . Contrastive  language - image pre - tr aining  (CLIP),  by  OpenAI,  is  visual  linguis tic  model  that  has  been  trained  to  associate  texts  with  images.  Recently ,   new  CLIP  variants   were  deve loped,  such  as  metadata - curated  language - image  pre - training  (MetaCLIP) re leased  by  Facebook  and  trained  on  larger  dataset,  and  Multilinigual - CLIP,  which  adapts  CLIP  to  multiple  langu ages.  We  compare   CLIP  and  its   vari ants  in  text - to - face  synthesis  with  custom  StyleGAN2 - ADA  model  and  pre - trained  StyleGAN2  model.  Our  training - free  algorithm  starts  with  an   initial  image  latent  code  that  is  iteratively  manipulated  to  match  give text  description.  It  achieves  this  by  minimizing  the  distance  between  the  te xt  and   image  embedding  in  the  multi - modal  embedding  space  of  the  CLIP  models.  An  examination  of  CLIP   and  its   variants  showed   that  Met aCLIP  outperformed  its  competitors  in  LPIPS  similarity  and  closeness  of  the  synthesized  image  to   the  actual   prompt.  CLIP   produced  the   most  r ealistic  images  with  the  best  FID   score  and  multilingual - CLIP   presented  a   choice  of   input text lang uage and  genera ted dece nt images.   K e y w o r d s :   C L I P   G e ne r a ti ve  a dve r s a r ia ne twor k   M e ta C L I P   M ul ti li ngua l - C L I P   S ty le G A N   T e xt - to - f a c e   ge ne r a ti on   T e xt - to - im a ge  ge ne r a ti on   This is an  open  acce ss artic le unde r the  CC BY - SA   license.     C or r e s pon di n g A u th or :   P r iy a dha r s in R a vi s a nka r   D e pa r tm e nt  of  A r ti f ic ia I nt e ll ig e nc e  a nd D a ta  S c ie nc e , R a j a la k s hm E ngi ne e r in g   C he nna i,  I ndi a   E m a il pr iy a dha r s in i. r @ r a ja la ks hm i. e du.i n       1.   I N T R O D U C T I O N   A r ti s ts   dr a w   pi c tu r e s   f r om   th e i r   im a gi na ti on  a nd  a r e   pr of ic i e nt   a de pi c ti ng  va r io us   e nt it ie s   li ke   bi r ds a ni m a ls s c e ne r y,  a nd  hum a f a c e s T gi ve   th e ir   dr a w in gs   a   li f e li ke   a ppe a r a nc e th e in c or por a te   c ol or te xt ur e c om pos it io n,  a nd  e xpr e s s io n s F ur th e r m or e w he a a r ti s is   pr ovi de a   te xt   d e s c r ip ti on,  th e y   c a dr a w   a   s ke tc th a c a pt ur e s   a ll   of   th e   f e a tu r e s   s pe c if ie w hi le   s im ul ta ne ous ly   m a in ta in in th e   r e a li s ti c   a s pe c ts U s in m a c hi ne  l e a r ni ng mode ls , w e  c a n m im ic  t hi s  uni que  a bi li ty  of  a r ti s ts  a nd a ut om a te  t he  c r e a ti on   of   a im a ge   f r om   te xt th us   dr a m a ti c a ll r e duc in g   m a nua l   la bor G e ne r a ti ve   a r ti f ic ia in te ll ig e nc e   h a s   e vol ve d   to   be   one   of   th e   m os not e w or th a dva nc e s   in   r e c e nt   ye a r s   in   c om put e r   vi s io n.  T o   c r e a te   ne w   da ta ,   g e ne r a ti ve   A I   le a r ns   pa tt e r n s   a nd   s e qu e nc e s   f ound  in   da ta s e s a m pl e s .   T he   pr im a r goa of   te xt - to - im a ge   s ynt he s i s a   br a nc of   G e n - A I is   to   c r e a te   a im a ge   f r om   a in put   c a pt io n.  T he   a tt r ib ut e s   s pe c if ie in   th e   te xt   gui de   im a ge   ge ne r a ti on,  a nd  th is   pr oc e s s   ha s   s e v e r a us e s   in   a r t,   s t or yt e ll in g,  e duc a ti on,  a nd  m or e T e xt - to - f a c e   s ynt he s is a   s ubf ie ld   in   te xt - to - im a ge   s ynt he s is pr oduc e s   a   f a c ia im a ge   f r om   a   de s c r ip ti on  a nd  r e qui r e s   gr e a te r   a tt e nt io to   de ta il H um a f a c e s   c ont a in   m a ny  s ubt le ti e s   a nd  m is ta ke s   in   ge ne r a te f a c e s   a r e   e a s il Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       F ac e Sy nt h:  t e x t - to - fa c e  ge ne r at io n us in g C L I P  and it s  v ar ia nt s   w it h …  ( P r iy adhar s in R av is ank a r )   3589   de te c ta bl e T he r e   ha ve   b e e m a ny  a dv a nc e m e nt s   in   th e   f ie ld   of   te xt - to - f a c e   s ynt he s is th r ough  ge ne r a ti ve   a dve r s a r ia ne twor ks   ( G A N s )   [ 1]   a nd  di f f us io n m ode ls   [ 2] .   G A N s   [ 1]   a r e   m a c hi ne   le a r ni ng  m ode ls   th a c r e a te   or ig in a da t a   th a c ons is of   two  s ub - ne twor ks a   ge ne r a to r   a nd  a   di s c r im in a to r T h e s e   ne twor ks   c om pe te   a dve r s a r ia ll th r oughout  th e   tr a in in pe r io d.  H e r e th e   ge ne r a to r   pr oduc e s   a r ti f ic ia im a ge s   a nd  th e   di s c r im in a to r   c a te gor iz e s   th e m   a s   r e a or   f a ke T he   ge ne r a to r   ta ke s   f e e dba c f r om   th e   di s c r im in a to r   a nd  m a k e s   it e r a ti ve   i m pr ove m e nt s in   w hi c m a nne r   th e   two  s ub - ne twor ks   c ha ll e nge   e a c ot he r   to   c r e a te   uni que   d a ta T h e r e   ha ve   be e s e ve r a r e f in e m e nt s   to   th e   or ig in a G A N   to   im pr ove   th e   qua li ty   a nd  r e a li s m   of   s ynt he s iz e im a ge s li ke   c ondi ti ona ge n e r a ti ve   a dve r s a r ia ne twor ( C G A N )   [ 3]   a nd   de e c onvolut io na ge ne r a ti ve   a dve r s a r ia ne twor ( D C G A N )   [ 4] S om e   m ode ls   li ke   a tt e nt io na ge ne r a ti ve   a dve r s a r ia ne twor ks   ( A tt nG A N )   [ 5 ]   a nd  s ta c ke ge n e r a ti ve   a dve r s a r ia ne twor ks   ( S ta c kG A N )   [ 6]   a r e  popula r  i te xt - to - im a ge  ge ne r a ti on  f or  b ir ds  a nd othe r  obj e c ts  but  do  not  ge ne r a li z e  w e ll   a nd  ha ve   th e   nua nc e   ne e d e f or   f a c e   s ynt he s i s S ty le - b a s e ge ne r a ti ve   a dve r s a r ia n e twor ks   ( S ty le G A N )   [ 7] ba s e on   pr ogr e s s iv e   gr ow in of   ge n e r a ti ve   a dve r s a r ia n e twor ( P r oG A N )   [ 8] is   a   s ta te - of - th e - a r t   ge ne r a ti ve   m ode th a c r e a te s   hi gh - qua li ty r e a li s ti c   im a ge s I n S ty le G A N th e   ne twor c ont a in s   m a ny  la ye r s ,   w it th e   in it ia one s   pr oduc in a   lo w e r - di m e ns io na im a ge   th a c onc e nt r a te s   on  th e   ba s ic   f e a tu r e s   a nd  th e   ot he r  l a ye r s  f oc us e d on a ddi ng mor e  c om pl e x de ta il s  t o t he  i m a ge . A dva nc e m e nt s  i n S ty le G A N  ha ve  s e e n t he   de ve lo pm e nt   of   S ty le G A N [ 9]   a nd  S ty le G A N [ 10] A ll   t he s e   S ty le G A N   m ode ls   r e qui r e   a e nor m ous   da ta s e f or   tr a in in g,  w hi c is   e xt r e m e ly   e xpe ns iv e   a nd  c o m put a ti ona ll in te ns iv e S ty le G A N 2 - a da pt iv e   di s c r im in a to r   a ugm e nt a ti on   ( A DA )   [ 11]   w a s   c r e a te to   f ix   th is   pr obl e m   a nd  c a be   tr a in e on  a   s m a ll e r ,   li m it e da ta s e t.   I bui ld s   on  th e   or ig in a S ty le G A N   a r c hi te c t ur e   by  a ddi ng  da t a   a ugm e nt a ti on  te c hni que s S ty le G A N w a s   us e d   w it te xt   e n c ode r s   li ke   B E R T   in   te xt   t f a c e   ge n e r a ti on  w it S ty le G A N 2’   [ 12] a nd   D is ti lB e r t   in  ‘ S ty le T 2F   [ 13]   to  ge ne r a te  f a c e s  f r om  t e xt  de s c r ip ti ons .   A   v is u a l - li ng ui s ti c   m od e l   c a l le c o nt r a s ti v e   la ng ua ge - im a g e   pr e - tr a i ni n ( C L I P )   [ 1 4]   w a s   c r e a t e by   O p e nA I   to   li n t e x ts   w i th   i m a ge s I is   a   de e p   le a r ni n m od e tr a in e d   on  40 m i ll i on  i m a ge - te xt   pa ir s   ob ta in e d   f r om  I m a g e N e a n c on ne c t s  t h e m  b y e nc odi ng  bot h i nt a  j oi n e m b e d di n s p a c e .  I i s  n ot a bl e  f or  i t s   s u c c e s s  i z e r o - s ho l e a r ni ng,   w h ic i nvo lv e s   c la s s if yi n im a ge s  w it l a b e l s   n ot  e n c o unt e r e d i tr a i ni n g. C L I P  c o nt a in s  a n   im a ge   a n t e x e nc od e r   a nd  w a s   u s e w it S ty le G A N   i s e v e r a t e xt - to - f a c e   ge ne r a t io a nd  m a n ip ul a ti o m od e l s   li ke   S ty l e C L I P   [ 1 5]   a n d   T e di G A N   [ 16] .   P r e vi ou s   w o r ks   ha ve   e x pl or e d   t e x t - to - f a c e   ge n e r a ti o a nd   m a n ip u la ti o u s in a   pr e - tr a in e d   S ty l e G A N   [ 7 ]   a n C L I P   m o de l   [ 1 4] .   C L I P D r a w   [ 17]   i s   a   t e xt - to - dr a w i ng   a lg or it hm   t ha s yn th e s iz e s   dr a w in gs   by  m a xi m i z i ng  t he   c os in e   s im il a r it b e t w e e a   g e n e r a t e s k e t c a n a in pu de s c r i pt i on.   T h is   m e th od   i s   bi a s e t ow a r d s   dr a w in gs   r a th e r   t ha r e a li s t ic   im a g e s .   R e d dy   e al [ 1 8]   pr op o s e a  m od e th a ge n e r a te a  r a n dom  i m a g e   a n opt im i z e i ts  l a te nt   c od e  w it h   C L I P s  l o s s  f u nc ti o n.   R e c e nt ly ,   F a c e b oo k R e s e a r c r e l e a s e d M e ta C L I P   [ 1 9] ,   b a s e d on   C L I P , t r a in e d   on  a   m a s s iv e   d a t a s e t   of   bi ll i on  i m a ge s   f e t c h e d   f r om   C om m on C r a w l . C L I P s   a c c om pl i s hm e nt s  w e r e  s a id  t l ie   in  t h e   q ua li t of  da ta   it   w a s   tr a i ne on   a nd   not   in   it s   a r c hi t e c tu r e .   S in c e   th e r e   i s   i na d e qu a t e   i nf or m a t io n   on   h ow   C L I P   o bt a in e d   i t s   tr a i ni n d a t a ,   M e t a C L I P   i nt e nd e d   to   un ve il  a n r e f in e  C L I P s   m e th od of  a c qui r in d a t a . M e t a C L I P   i s   r e l a ti ve ly   ne w   a n ha s   no ha a n a p pl i c a ti on s   in   t e xt - to - im a g e   s y nt he s i s .   V i s io n - l a n gu a g e   m od e l s   a nd   C L I P ,   in   pa r t ic ul a r ,   a r e   c r uc ia m od e l s   in   a r ti f ic ia i nt e ll ig e n c e   t ha ha ve   m a d e   a   c o n s id e r a bl e   im pa c t   i t he   f i e l d.   H ow e v e r , m o s t   f oc us  onl y   on   E ngl is h   t e xt s , w h ic h i s  a  c on s e q ue nc e   of   t he  s c a r c e  num be r  of   im a g e - t e x t   d a t a s e t s   in   ot h e r   l a n gu a g e s .   M ul ti li ng ua l - C L I P   [ 20]   w a s   in tr od u c e to   a d dr e s s   th i s   l im it a t io n   a n le ve r a g e th e   s t r e ngt of   C L I P s   pr e - tr a i ne t e x e n c o de r   to   tr a in   a   s tu d e n m od e to   pr o c e s s   m ul t ip l e   la ngu a g e s .   I ha s   s e v e r a l     pr e - t r a in e m od e l s  d e s ig ne d f or  d iv e r s e  l a ng ua g e s  a nd  c a n  b e   us e in   m u lt il in g u a t e xt - to - f a c e   g e ne r a ti on .   E a c of   th e s e   m ode ls   ha s   it s   a dva nt a ge s   a nd  di s a dva nt a g e s O ur   m a in   c ont r ib ut io n   in vol ve s   e xpe r im e nt in g,  a na ly z in g,  a nd  c om pa r in g   C L I P M e ta C L I P a nd  m ul ti li ngua l - C L I P   in   E ngl is a nd  T a m il   in   te xt - to - f a c e   ge ne r a ti on. M ul ti li ngua l - C L I P  c a n be  us e d t o e na bl e  hi gh - qua li ty   te xt - to - f a c e   s ynt he s is  i n s e ve r a ot he r   la ngua ge s   to   m a ke   it   a c c e s s ib le   w or ld w id e W e   a ls a s s e s s   th e   p e r f or m a nc e   of   a   c us to m   S ty le G A N 2 - A DA   m ode [ 11] ,   tr a in e w it h   a   s ubs e of   im a ge s   f r om   t he   F a ir F a c e   da ta s e [ 21] a nd  a   p r e - tr a in e d   S ty le G A N m ode tr a in e w it th e   F F H Q   da ta s e t.   O ur   goa is   to   s ynt he s iz e   r e a li s ti c   im a ge s   th a c ont a in   th e   f in e - gr a in e a tt r ib ut e s   m e nt io ne in   th e   de s c r ip ti on.  O ur   pr opos e s y s te m   in te gr a te s   C L I P   a nd  it s   va r ia nt s   w it S ty le G A N or   S ty le G A N 2 - A DA C L I P   [ 14] a lo ng  w it it s   va r ia nt s M e ta C L I P   [ 19]   a nd  m ul ti li ngua l - C L I P   [ 20 ] , c onne c te xt  de s c r ip ti ons  w it th e ir  vi s ua r e pr e s e nt a ti ons , w hi le  S ty le G A N 2 o r  S ty le G A N 2 - A DA   [ 11]   ge ne r a te s   th e   hi gh - qua li ty   im a ge s S ty le G A N 2 - A DA   w it th e   F a ir F a c e   da ta s e is   us e to   e ns ur e   di ve r s it a nd  f a ir ne s s   in   th e   s ynt he s iz e im a ge s   a nd  c a be   c ont r a s te w it th e   pr e - tr a in e S ty le G A N 2   m ode l.   T he   ove r a ll   a lg or it hm   ope r a te s   in   two  pha s e s I th e   f i r s pha s e a   gi ve te xt   de s c r ip ti on  is   e nc ode us in C L I P   or   it s   va r ia nt s   te xt   e nc ode r   [ 8] [ 14] [ 19 ] A   s ta r ti ng  la te nt   ve c to r w hi c is   a   num e r ic a l   r e pr e s e nt a ti on  of   th e   f e a tu r e s   of   a   te xt   or   im a ge   in   a   hi ghe r   d im e ns io na la te nt   s pa c e is   ge n e r a te d.  T hi s   i s   done  by r a ndoml y s ynt he s iz in g a  f e w  i m a ge s , s to r in g t he  l os s  b e twe e n t he  e nc ode d ge ne r a te d i m a ge  a nd t e xt s e le c ti ng  th e   im a ge   w it th e   lo w e s lo s s a nd  obt a in in i ts   la te nt   ve c to r   a s   th e   s ta r ti ng  la te nt   c ode I th e   s e c ond  ph a s e ,   th is  s ta r ti ng  la te nt   c od e   is   opt im iz e w it h a   lo s s   r e pe a te dl y. T he   lo s s   i s   f ound  in  e ve r it e r a ti on  a f te r   s ynt he s iz in a nd   e nc odi ng  th e   im a g e f ol lo w in w hi c i us e s   a a r c s in   f unc ti on  to   f in th e   di s ta nc e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  5 O c to be r   20 25 3588 - 3598   3590   be twe e th e   e m be ddi ngs   of   th e   im a ge   a nd  te xt w hi c c or r e s ponds   to   how   s im il a r   th e   in put   te xt   is   to   th e   ge ne r a te d i m a ge . T he  c a lc ul a t e d l os s  i s  pa s s e d ba c kw a r d t o upda te  t he  l a te nt  c ode . T hi s  pr oc e dur e  i s  r e pe a te 100  ti m e s   to   ge ne r a te   th e   f in a im a ge T he   r e s ul ts   obt a in e f r o m   our   w or hi ghl ig ht   th e   tr a de - of f s   in   us in a   c us to m - tr a in e S ty le G A N 2 - A DA   m ode ve r s us   a   pr e - tr a in e S ty le G A N   m ode l,   a s   w e ll   a s   th e   tr a de - of f s   be twe e C L I P   a nd  it s   va r ia nt s .   T he   c onc lu s io i s   th a w hi le   i m a ge s   s ynt h e s iz e w it M e ta C L I P   m a tc th e   te xt   de s c r ip ti on  be tt e r C L I P   pr oduc e s   m or e   r e a li s ti c - lo oki ng  im a ge s M ul ti li ngua lC L I P   m a ke s   it   pos s ib le   f or   te xt - to - f a c e   s ynt he s is   to   f unc ti on  in   m ul ti pl e   la ngua ge s H ow e ve r it s   pe r f or m a nc e   is   s ubpa r   r e la ti ve   to   th e   ot he r   two  m ode ls   in   r e a li s m   a nd  c lo s e ne s s   to   th e   te xt F in a ll y,  w hi le   th e   pr e - tr a in e S ty le G A N m ode l   pe r f or m e be tt e r th e   c us to m - tr a in e S ty le G A N 2 - A DA   m od e e ns ur e m or e   di ve r s it a nd  f a ir ne s s   in   it s   s ynt he s iz e im a g e s T hi s   r e s e a r c pa p e r   in te nds   to   pr ovi de   us e f ul   in s ig ht s   th a he lp   in   m a ki ng  in f or m e de c is io ns  a nd  c hoos in g m ode ls  t h a be s t - f it  r e qui r e m e nt s .   I s e c ti on  2,  a   li te r a tu r e   s ur ve is   c onduc t e th a goe s   ov e r   r e la te w or k,  r e vi e w in va r io us     te xt - to - im a ge   a nd  te xt - to - f a c e   ge ne r a ti on  m ode ls S e c ti on  di s c us s e s   th e   m odul e s   us e in   our   a lg or it hm ,   S ty le G A N   [ 7] [ 9] [ 11] C L I P M e ta C L I P a nd  m ul ti li ngua l - C L I P our   pr opos e a r c hi te c tu r e w hi c h   c on s is ts   of   th e   da ta s e de s c r ip ti on,  ove r a ll   a r c hi te c tu r e a lg or it h m e xpl a na ti on  of   our   lo s s   f unc ti on  a nd  th e   e va lu a ti on   m e tr ic s a nd  f in a ll th e   e xpe r im e nt s   w e   c onduc te d.  S e c ti on  c ont a in s   th e   r e s ul ts   a nd  a   c om pr e he ns iv e   di s c us s io s e c ti on  w he r e   th e   r e s ul ts   a r e   pr e s e nt e a nd  s tu d ie d.  F in a ll y,  w e   pr e s e nt   our   c onc lu s io ns   in     s e c ti on   5 a nd dis c us s  f ut ur e  w or k.       2.   L I T E R A T U R E  S U R V E Y   T e xt - to - f a c e   a nd  te xt - to - im a ge   s ynt he s is   us in G A N s   a r e   w e ll - r e s e a r c he to pi c s   of   g e ne r a ti ve   A I   th a ha ve   la r ge - s c a le   a ppl ic a ti ons S om e   of   th e   m os s ig ni f ic a nt   pa pe r s   a r e   out li ne a lo ng  w it th e ir   c ont r ib ut io ns Z ha ng  e al [ 6]   in tr oduc e one   of   th e   f ir s te xt - to - im a ge   m ode ls   c a ll e S ta c kG A N tr a in e on  bi r im a ge s   f r om   th e   C U B   a nd  M S   C O C O   da ta s e ts T h e   m ode ha two  G A N s   s ta c ke on  to of   e a c ot he r ,   w he r e   th e   f ir s G A N   a dde pr im a r y   c ha r a c te r is ti c   f e a tu r e s   li ke   s ha pe   a nd  c ol or a nd  th e   s e c ond  one   a dde d   m or e   hi gh - le ve f e a tu r e s T hi s   m ode ut il iz e th e   or ig in a G A N w hi c le to   i s s ue s   li ke   m ode   c ol la ps e   a nd  tr a in in in s ta bi li ty X e al [ 5]   in t r oduc e A tt n - G A N a   ne w e r   a r c hi te c tu r e   w it hi th e   G A N   f r a m e w or th a t   us e th e   s a m e   da ta s e a s   S ta c kG A N   a nd   f ol lo w e a   m ul ti pl e - s ta ge   a ppr oa c h.   I e ve r y s ta ge ,   a   f e w   s ig ni f ic a nt   ke yw or ds   f r om   th e   in put   p r om pt   w e r e   e xt r a c te a nd  us e to   s ynt he s iz e   a im a ge   of   lo w   r e s ol ut io n,  w hi c w a s   f in a ll c om bi ne u s in th e   w or c ont e xt s   de v e lo pe in   th e   pr e vi ous   s ta g e s T he   p e r f or m a nc e   of   th is   m ode de te r io r a te d a s  t he  de s c r ip ti on got l onge r  be c a us e  t he  a tt e nt io n m a p be c a m e  m or e  c om pl ic a te d t o t r a in .   N a s ir   e al [ 22]   pr opos e T e xt 2F a c e G a n w he r e   th e   m a in   c o nt r ib ut io la in   c r e a ti ng  a a lg or it hm   to   a dd   c a pt io ns   to   th e   im a ge s   of   th e   C e le b A   da ta s e t,   de s c r ib in th e   a tt r ib ut e s   th a w e r e   pr e s e nt   in   th e m T hi s   w a s   a c hi e ve u s in a   s ki p - th ought  e nc ode r   a nd  w a s   a   s ig ni f ic a nt   c o nt r ib ut io to   th is   f ie ld a s   e a r li e r   f a c ia im a g e - te xt  da ta s e ts   w e r e  s c a r c e .   S a b a e   e t   al .   [ 13]   i nt r odu c e d   S t yl e T 2F   u s i ng   D is ti l B e r t   to  e xt r a c t  f a c ia f e a tu r e s   f r om  a  t e xt   d e s c r ip t io n w hi c w e r e   tr a n s f or m e i nt a   f in a l a t e n v e c to r   p a s s e d   to   th e   S ty l e G A N g e n e r a to r F e a tu r e   di r e c t io ns   w e r e   us e d   to   n a vi ga te   th e   S ty le G A N la te nt   s pa c e   a nd   r e a c th e   r e qui r e d   la te nt   v e c t or .   T hi s   m o de h a d   m u lt i pl e   pr ob le m s   du e   t e nt a ng le f e a t ur e   di r e c ti on s F ol l ow i ng  a   s i m il a r   a ppr oa c h A ya nt h i   a nd  M u na s i ng he   [ 12]   pr opos e a   f r a m e w or th a t   e xhi bi te a   s im il a r it y   of   ove r   50 %   t th e   or ig in a l   im a ge s T he   m ode us e B E R T   to   e xt r a c th e   te xt   e nc odi ngs w hi c w a s   gi ve to   a   pr e - tr a in e G A N   s uc a s   S ty le G A N 2.  I w a s   tr a in e w it h   th e   pe r c e pt ua lo s s   f unc ti on  a nd  p e r f or m e be tt e r   th a ol de r   G A N s   li ke   A tt nG A N   [ 5] a nd  S ta c kG A N H ow e ve r th e   da ta s e us e in   th is   pa pe r   c ons is te of   onl 5685  im a ge - te xt   pa ir s   a nd  he nc e   di not   ge ne r a li z e   w e ll le a di ng  to   ove r f it ti ng.  T odm a l   e al [ 23]   pr opos e two   m e th ods   th a u s e d   C L I P S ty le G A N a nd  th e   pi xe l2 s ty le 2pi xe im a ge   e nc ode r   [ 24] w hi c pr oj e c ts   im a ge s   in to   th e   e xt e nde la te nt   s pa c e   of   S ty le G A N .   T he   f ir s m e th od   m a ppe d   a   pr om pt   to   th e   e xt e nd e la te nt   s pa c e   of   S ty le G A N w hi le   th e   s e c ond   m a ppe d   it   to   th e   in it ia la te nt   s pa c e   of   S ty le G A N T he   f ir s m e th od  r e s ul te in   f a c ia im a ge s   th a w e r e   tr ue   to   th e   de s c r ip ti on  but   le s s   li f e li ke w hi le   th e   s e c ond  ha m or e   r e a li s t ic   im a ge s   but   le s s   c ont r ol   ove r   th e   a tt r ib u te s .   R e ddy   e al [ 18]   pr opos e d a n a lg or i th m  t ha t  t r a in e d a   S ty le G A N  i nve r te r  t o  e nc ode  a  gi ve n i m a ge  a nd obta i n   it s   in te r m e di a te   la te nt   c ode   a nd  ut i li z e a   lo ope ne twor k   f or   te xt - to - im a ge   ge ne r a ti on.   I ni ti a ll y,   a   r a ndo m   la te nt   c ode   is   c r e a te a nd  pa s s e to   th e   S ty le G A N   ge ne r a to r   to   s ynt he s iz e   a   r a ndom  im a ge T he   s ynt he s iz e im a ge   a nd  in put   c a pt io a r e   c om pa r e w it C L I P   L os s T he   tr a in e S ty le G A N   in ve r te r   f in ds   th e   la te nt   c ode   of   th e   s ynt he s iz e im a ge upda t e s   it   w it th e   lo s s a nd  r e ge ne r a te s   a im a ge T hi s   pr oc e s s   oc c ur s   f or   a   f ix e d   num be r   of   s te ps   a s   th e   lo s s   va lu e   de c r e a s e s I th e   br a nc o f   te xt - to - f a c e   ge ne r a ti on  in   m ul ti pl e   la ngua ge s   L e al [ 25]   pr opos e a   m ode th a us e tr a ns f e r   le a r ni ng  a nd ma de   us e   of   ne ur a m a c hi ne   tr a ns la ti on.  I ha d   two  a ppr oa c he s   a nd  te s te th e   r e s ul ts   on  th e   C U B   a nd  C O C O - C N   da ta s e ts   w it S ty le G A N 2.  I a na ly z e a nd   e va lu a te d how the ir  c r os s - li ngua tr a ns f e r  m e th ods  c om p a r e  t o ot he r  t r a ns f e r  m e th ods .     Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       F ac e Sy nt h:  t e x t - to - fa c e  ge ne r at io n us in g C L I P  and it s  v ar ia nt s   w it h …  ( P r iy adhar s in R av is ank a r )   3591   3.   M E T H O D S  A N D  C O M P O N E N T S   3.1.  S t yl e G A N   S ty le G A N , bui l on t op  of  P r oG A N   [ 8] , i s  t he   s ta t e - of - th e - a r m ode in  t h e  f ie l d of   g e ne r a t iv e A I   us in G A N s t ha t   i s   c a p a bl e   of   pr od uc in g   hi gh - qu a li ty ,   r e a li s t ic   im a ge s .   U nl ik e   it s   pr e d e c e s s or s w hi c us e onl y   one   la t e nt   s p a c e  c a ll e d   th e   Z   s p a c e  t o s a m pl e   a t tr ib ut e s   f r om ,   S t yl e G A N  pr opo s e d   to   u s e   a in te r m e di a t e   l a te nt   s pa c e   c a ll e th e   W   s p a c e T h e   Z   s p a c e   c ons is t s   of   r a ndo m   ve c t or s   ( n oi s e   v e c to r s )   th a c o nt r ol   im a ge   ge ne r a ti on.  I c ont r a s t,   th e   W   s pa c e w hi c w e   ge b pa s s i n th e   in put   th r o ugh  a 8 - la y e r   M L P   m a ppi ng  ne twor k e n a bl e s   s m oot h e r   in te r p ol a ti on  be t w e e la t e nt   v e c to r s I e n s ur e m or e   di s e nt a n gl e m e nt   be twe e n   di f f e r e nt   f e a tu r e s   in   th e   W   s p a c e w hi c h   pr ovi d e s   m or e   c ont r o l   ove r   th e   in di vi du a a tt r ib ut e s .   S ty le G A N   w a s   s uc c e e de d   by  S ty le G A N a nd  S t yl e G A N 3   [ 10] w hi c h   ha d   a r c hi te c tu r a l   c h a ng e s   t c o m ba t   th e   li m it a ti on s   pos e d by the   or ig in a S ty le G A N T h e s e  m odi f ic a ti on s  f ix e d e a r l ie r  i s s ue s  l ik e  pha s e   a r ti f a c ts , t h e  w a te r - dr opl e t   e f f e c t,   a nd  t e xt ur e   s ti c ki ng,  w hi c ge n e r a t e e v e m or e   r e a li s ti c   im a g e s A no th e r   m a jo r   d e ve lo pm e nt   w a s   th e   S ty le G A N 2 - A DA   m ode l w hi c h a ndl e d   th e   pr o bl e m   of   li m it e da t a s e ts M o s G A N - b a s e d   m od e ls   r e qui r e   50,000  -   100, 000  im a g e s   f or   tr a in in a nd  us e   a ugm e n ta ti o t w or w it s m a ll   d a ta s e t s w hi c r e s ul t s   in   ove r f it ti ng . T hi s   c ha l le ng e a ddr e s s e d b y t he  S t yl e G A N 2 - A DA   m ode l,  pr oduc e d ou tp ut s  s im il a r  t o S t yl e G A N 2   w hi le   us in g a  s ig ni f ic a nt ly   s m a ll e r  d a ta s e t,  w h ic a s s i s te d i n o ve r c om in da ta  s c a r c it c ha ll e ng e s .     3.2.  Con t r as t iv e  l an gu age - im age  p r e - t r ai n in g   C L I P   i s   a   m o d e l d e s i g n e t o   l i n a   s e t   of   pi c t ur e s   t o   t e x t   d e s c r ip t i o n s ,   t r a i n e d   on   4 0 m il l i on   p a ir s   of   i m a g e - t e x t   p a i r s   o n   I m a g e N e t .   T h e   C L I P   f r a m e w o r c o n s i s t s   o f   a   t e x t   e n c o d e r   t h a t   u ti l i z e s   t r a n s f o r m e r s   a nd   a i m a g e  e n c od e r   t h a t   u t i li z e s  R e s N e t   [ 2 6 ]   o r   i m a g e  t r a n s f or m e r s   [ 2 7] .   I t  e m p l o y s  a  m e tr i c   t o  m e a s ur e  t h e  l ik e n e s s  of   a  g i v e n c a p ti o n t o a  pi c t ur e  c a ll e d  c o s i n e  s i m i l a r it y . B o t h t h e  e n c od e r s  yi e l d u n if o r m - s i z e d  e m b e d d i ng s  p o s it i o n e i n   a   jo i n e m b e d di n g   s p a c e I t   i s   po s s i b l e   t o   f i n h o w   f a r   a p a r t he   e n c o d e d   c a pt i o a n d   pi c t ur e   a r e   i n   t h i s   s p a c e .   C L I P   i s   f a m o u s  f o r   c a t e g or i z i ng   a n  i m a g e   w i t h  l a b e l s   n ot   e n c o un t e r e d   d ur i ng   tr a i n in g ,   c a ll e d   z e r o - s h ot   l e a r n i ng .     3.3.  M e t ad at a - c u r at e d  l an gu age - im age  p r e - t r ai n in g   F a c e b ook R e s e a r c d e ve lo pe M e ta C L I P w hi c hi g hl ig ht s   th e  da ta  c ol le c ti on   m e th od  of   C L I P  s in c e   it   s u gge s t s   th a i ns ig ht   in to   th is   pr oc e s s   c a r e v e a l   th e   f a c to r s   t ha m a de   it   s o   s u c c e s s f ul .   S in c e   C L I P   do e s   not   di s c l os e  how   it   c ol l e c t s   da t a ,   th e   p a pe r   ob s e r v e s   w ha t   qu a nt if ie s   good   qu a li ty   d a ta   a nd dis c u s s e s   a   t e c hni que   to   r e ve a C L I P ' s   s e le c ti on  pr o c e s s M e ta C L I P   ha s   b e e tr a in e w i th   bi ll io im a ge s   pr e s e nt   in   C om m on C r a w a nd b e a t s   C L I P ' s  p e r f or m a n c e  i n i m a ge   c la s s if ic a ti on  w it h u nkn ow n l a be l s c a ll e z e r o - s hot  l e a r ni ng.     3.4.  M u lt il in gu al - c u r at e d  l an gu age - im age  p r e - t r ai n in g   M os vi s io la ngua ge   ne twor ks   a r e   c e nt e r e on  E ngl is be c a us e   of   th e   s pa r s e   num be r   of   i m a ge - te xt   da ta s e ts   a v a il a bl e   in   ot he r   la ngua ge s M ul ti li ngua l - C L I P   b r id ge s   th is   ga by  ut il iz in tr a ns f e r   le a r ni ng  to   tr a in   a   novi c e   ne twor to   pr oduc e   a   m a tc hi ng   e m be ddi n to   th e   pr e - tr a in e C L I P   te a c he r   m od e l.   M ul ti li ngua l - C L I P   f oc us e s   on  us in a   s tu de nt   te xt   e nc ode r   b ut   w it th e   s a m e   vi s io e nc ode r T he   tr a in e e   e nc ode r   ut il iz e s   a   B E R T   tr a ns f or m e r   m ode l,   pr e - tr a in e in   a   n on - E ngl is la ngua ge w it m e a s qua r e e r r or   ( M S E )  l os s  t o  a li gn i ts  e m be ddi ngs  w it h  t he  t r a in e r  ne twor k. M ul ti li ngua l - C L I P  i s  ve r y  us e f ul  i n m u lt il in gua l   vi s io n - la ngua ge  t a s k s  s in c e  i w a s  t r a in e d i n nume r ous  l a ngua g e s .     3.5.  S ys t e m  ar c h it e c t u r e   3.5.1. Dat as e t  d e s c r ip t io n   T hi s   r e s e a r c ut il iz e d   two  da t a s e t s th e   F a ir F a c e   da ta s e a nd   th e   m ul ti - m oda l - C e le bA - H Q   da ta s e in   w hi c th e   f ir s w a s   us e to   tr a in   th e   S ty le G A N 2 - A DA   m ode a nd  th e   s e c ond  to   te s th e   pr opos e a lg or it hm .   T he   F a ir F a c e   da t a s e h a s   108,501  f a c i a im a ge s   w it a   ba la n c e r e pr e s e nt a ti on  a c r o s s   s e ve e th ni c   gr oups T hi s   da ta s e w a s   c le a ne a nd   pr e pr oc e s s e by  ig nor in th e   lo w - qua li ty   da ta   a nd  r e s iz in th e   r e m a in in to   256 × 256  pi xe ls a f te r   w hi c a   s m a ll e r   s ub s e of   10,500  im a ge s   w a s   c r e a te by  s e le c ti ng  a e qua pr opor ti on  of   pi c tu r e s   f r om   e a c of   th e   s e ve e th ni c it ie s S in c e   S ty le G A N 2 - A DA   is   known  f or   w or ki ng   w it s m a ll e r   da ta s e ts , 10,500 im a g e s  w e r e   s uf f ic ie nt  f or  t r a in in g.   T he   m ul ti - m oda l - C e le bA - H Q   da ta s e [ 16]   c ont a in s   30,000  im a ge s w hi c a r e   di vi de in to   24,000  tr a in in a nd  6,000  te s ti ng  da ta w he r e   e a c im a ge   ha s   a   c a pt i on  f or m e f r om   a   s e of   40  a tt r ib u te s s uc a s   " w a vy  ha ir " " m us ta c he " " w e a r in e a r r in gs " ,   a nd  m or e S in c e   th e   pr opos e m ode doe s   not   ha ve   a   tr a in in g   pha s e bot th e   tr a in in a nd  te s ti ng  im a ge - c a pt io pa ir s   w e r e   u s e f or   e va lu a ti on.  T he   c a pt io n s   in   th e   m ul ti - m oda l - C e le bA - H Q   da ta s e w e r e   tr a ns la te to   T a m il   u s in th e   google tr a ns - py  pa c k a ge   to   e va lu a te   th e   m ul ti li ngua l - C L I P  m ode l.     3.5.2. S ys t e m   a r c h it e c t u r e   T he   ove r a ll   a r c hi te c tu r e   in   F ig ur e   c o nt a in s   th e s e   k e c o m po ne nt s S ty le G A N a   C L I P   va r ia n t,   th e   lo s s   f un c ti on a nd   two   lo o ps   w h e r e   th e   f ir s t   lo op  ge n e r a te s   th e   s ta r ti ng   im a g e   l a te nt   c od e a nd   th e   s e c ond   u s e s   th is   la t e nt   to   pr odu c e   th e   f in a i m a g e T h e   f ir s t   lo op   b e gi n s   b ta ki ng   a   r a nd om   t e n s or   in   t he   Z   s pa c e   a nd  Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  5 O c to be r   20 25 3588 - 3598   3592   pa s s in g   it   to   th e   S t yl e G A N   ge n e r a to r   to   s ynt he s iz e   a im a ge T he   g e ne r a te d   im a ge   a nd   th e   in p ut   t e xt   a r e   th e e nc od e d   us in g t he   r e s pe c ti v e   im a ge   a n t e xt   e n c ode r s  of  C L I P   o r   it s   va r i a nt s . A   lo s s   i s  c a l c ul a te d   b e twe e n   th i s   e nc od e d   im a g e   a nd  te xt   a n r e c or de a lo ng   w it h   th e   in t e r m e di a te   W   l a te nt T hi s   c yc l e   oc c ur s   10  t im e s a f te r   w hi c th e  i m a g e  w it h t he  l ow e s t  l o s s ' s  W  l a t e nt   c od e  i s  s e le c te d   a s  t he  i ni ti a im a g e  l a te nt  i n t h e  n e xt  l o op.   T he   f ol lo w in g   lo op   ta ke s   t he   s e le c te d   W   la t e nt   c od e ,   in it i a l iz e s   it   w it a o pt im iz e r a nd   th e ge ne r a te s  a im a g e   by   pa s s in g   it   t hr ough   S ty le G A N ' s  s yn th e s i s  ne twor k   [ 9] [ 1 1] . T h e   e nc od e d   te xt   a n im a ge   a r e  ut il iz e d t o c a lc ul a t e  a  l os s , w h ic h i s  ba c kpr op a ga t e d t o upd a t e  t he  W  l a t e nt  c ode  i n e a c h i t e r a ti on. T he  f in a im a ge   is   out p ut te d   a f t e r   100   it e r a ti on s   a nd  h a s   th e   hi g he s a c c u r a c t th e   gi v e i nput   pr om pt .   T hi s   tr a in i ng - f r e e  m e t hod  e f f e c t iv e ly  pr odu c e s   a n i m a ge  t ha c lo s e l y m a t c he s   th e  i np ut  c a pt io n pr om pt  us in g t w o l oo ps .           F ig ur e  1 O ve r a ll   a r c hi te c tu r e  of  t he  pr opos e d m ode l       3.5.3. L os s   f u n c t io n   T hi s   lo s s   f unc ti on  c a lc ul a t e s   how   a c c ur a te ly   th e   a tt r ib ut e s   in   th e   c a pt io a r e   de pi c te in   th e   im a ge   by  f in di ng  th e   di s t a nc e   b e twe e n   th e ir   e m be ddi ng s   in   th e   s ha r e e m be ddi ng  s pa c e T he r e   a r e   two   s te p s   in   f in di ng  th e   lo s s F ir s t,   th e   e m be ddi ngs   a r e   nor m a li z e to   th e   uni s phe r e gua r a nt e e in th a th e   di r e c ti on  is   c ons ta nt   a nd  it s   m a gni tu de   i s   s c a le to   on e A a r c s in   f unc ti o is   us e d   in   th e   s e c ond  s te to   d e te r m in e   th e   s phe r ic a di s ta n c e   lo s s   be twe e n   th e   im a g e   a nd   te xt   e m be ddi ng s I c on s id e r s   s phe r ic a ge om e tr to   f in th e   di s ta nc e   be twe e th e   e m be ddi ngs   on  a   hype r s phe r e C ur va tu r e   is   ig nor e in   tr a di ti ona E uc li de a di s ta nc e m a ki ng  it   uns ui ta bl e   f or   poi nt s   on  a   uni s phe r e   li ke   nor m a li z e ve c to r s   [ 28] T h e r e f or e s phe r ic a di s t a nc e   m e tr ic s  a r e  e m pl oye d t o c a lc ul a te  t h e s e  di s ta nc e s  a c c ur a te ly     3.5.4. Algor it h m   T he   pr opos e a lg or it hm   ge ne r a te s  a   s ui ta bl e   s t a r ti ng  im a ge   la te nt   c ode   a nd   th e opt im iz e s   it   to   a li gn   c lo s e ly   w it th e   in put   pr om pt .   I t   be gi ns   by  in it ia li z in th e   f ol l ow in ke va r ia bl e s th e   in put   te xt   p r om pt   X ;   a a r r a of   lo s s   va lu e s   L a a nd  a a r r a o f   W   la te nt   c ode s   W a bot in it ia ll y   e m pt y.  L   is   th e   lo s s   f unc ti on,     G   is   th e   S ty le G A N   ge ne r a to r   [ 9] ,   [ 11] a nd  C   r e f e r s   to   C L I P   or   it s   va r ia nt s C is   C L I P ' s   te xt   e nc ode r a nd  C is   it s   im a ge   e n c ode r I th e   f ir s pha s e th e   a lg or it hm   e nc ode s   th e   in put   te xt   pr om pt   a nd  ge ne r a te s   a in it ia la te nt   c ode I ni ti a ll y,  X   is   e nc ode w it C to   ge T Z   is   a s s i gne to   a   r a ndom  te ns or s iz e   [ 1,512] a nd  is   m a ppe to   W th e   in te r m e di a te   la te nt   c od e by  pa s s in it   th r ough  G ' s   m a ppi ng  ne twor k.  W   is   th e a ppe nde d   to   W a a f te r   w hi c h   it s   im a ge   is   s ynt he s i z e by   G ' s   s ynt he s i s   ne twor a nd  e n c ode w it C i.   T he   e n c ode im a ge   is   u s e d   a lo ng  w it h T   to   c om put e   th e   lo s s w it h   th e   lo s s   f unc ti on  L a nd  th is   lo s s   is   a ppe nde d   to   L a .   T he   im a ge   w it th e   le a s lo s s   is   ta k e n,  a f te r   10  it e r a ti ons a nd  it s   in te r m e di a te   la te nt   c ode   W   is   us e in   th e   ne xt   pha s e T he   n e xt   pha s e   us e s   th e   la te nt   c ode   w it th e   lo w e s t   lo s s   a nd   im pr ove s   th e   s ynt he s iz e im a g e A n   opt im iz e r   is   a s s ig n e W A im a g e   F   is   s ynt h e s iz e f r om   W   a nd  th e e nc ode w it C i,   a f te r   w hi c it s   lo s s   w it T   is   ba c k - pr opa ga te d,  pr om pt in g   th e   opt i m iz e r   to   ta ke   a   s te p.  A f te r   S   c yc le s th e   f in a i m a ge   F   is   pr oduc e d, w hi c h m os a c c ur a te ly  r e pr e s e nt s  t he   c ha r a c te r is ti c s  i n t he  i nput  t e xt  pr om pt .     A lg or it hm  1 S ynt he s iz in g a n i m a ge  f r om  a  t e xt  de s c r ip ti on   Input:  X :   t e x t   d e s c r i p t i o n ,   C t :   C L I P   v a r i a n t   t e x t   e n c o d e r ,   C i :   C L I P   v a r i a n t   i m a g e   e n c o d e r ,   G :   S t y l e G A N   g e n e r a t o r ,   S :   N u m b e r   o f   s t e p s ,   L :   L o s s   f u n c t i o n   O u t p u t :   F :   F i n a l   o u t p u t   i m a g e   1   2   3   4   5   T ← C t ( X )   La ← [   ]   Wa ← [   ]   For  i =   1     1 0   d o   Z ←  C r e a t e   r a n d o m   t e n s o r   o f   s i z e   [ 1 ,   5 1 2 ]   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       F ac e Sy nt h:  t e x t - to - fa c e  ge ne r at io n us in g C L I P  and it s  v ar ia nt s   w it h …  ( P r iy adhar s in R av is ank a r )   3593   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20   21   22   W     G . m a p p i n g ( Z )   Wa ← Wa { W }   I m a g e     G . s y n t h e s i s ( W )   E n c o d e d I m a g e     C i ( I m a g e )   l o s s     L ( E n c o d e d I m a g e , T )   L a     L a     { l o s s }   end for   i i n d e x ( m i n ( L a ) )   W←Wa i   O p t O p t i m i z e r   i n i t i a l i z e d   o n   W   w i t h   l e a r n i n g   r a t e   0 . 0 3   for  i = 1     S   d o   F     G . s y n t h e s i s ( W )   E n c o d e d I m a g e     C i ( F )   L o s s     L ( E n c o d e d I m a g e , T )   L o s s . b a c k w a r d ( )   O p t . s t e p ( )   end for     3.5.5. E val u at io n   m e t r ic s   T e v a lu a te   th e   qua li ty   a nd   r e a li s m   of   ge ne r a te d   im a ge s ,   s e v e r a c om m on  e va lu a ti on  m e tr ic s   a r e   us e to   c om pa r e   th e m   w it r e a im a g e s T w m e tr ic s   u s e a r e   F r é c he in c e pt io di s ta nc e   ( F I D )   a nd  le a r ne d   pe r c e pt ua im a ge  pa tc s im il a r it y ( L P I P S ) .     F r é c he i nc e pt io di s ta n c e a   c om m onl u s e m e tr ic   to   m e a s ur e   th e   r e a li s m   a nd  di v e r s it of   s ynt he s iz e d   pi c tu r e s   is   F I D   [ 29 ] I n   c ont r a s to   th e   in c e pt io s c or e w hi c s ol e ly   f oc us e s   on  th e   ge ne r a te im a ge s ,   F I D   a na ly s e s   th e   di s tr ib ut io o f   a ut he nt ic   a nd  s ynt he s iz e i m a ge   s e ts W he us in a I nc e pt io nV m ode l,   th e   f e a tu r e s   of   th e   r e a a nd   f a ke   s e ts   a r e   e xt r a c te d.  E a c pi xe is   c ha nge to   a   num e r ic a ve c to r   f or   th e   e dge s   a nd  li ne s F r é c he di s ta n c e   be twe e th e   e m be ddi n gs   is   c om put e to   m e a s ur e   th e   s im il a r it of  di s tr ib ut io ns . H ig he r  i m a ge  qua li ty  a nd r e a li s ti c  l ooks  a r e  m a r ke d by lowe r  F I D  s c or e s .     L e a r ne pe r c e pt ua im a ge   pa tc s im il a r it y p e r c e pt ua lo s s   is   a   m e tr ic   th a f in ds   how   s tr uc tu r a ll a li ke   two  hi gh - di m e ns io na im a ge s   a r e I us e s   a   d e e c onvolut i ona ne ur a ne twor to   obt a in   in tr ic a te   c ha r a c te r is ti c s   of   im a g e s   a nd   de te r m in e   how   ne a r   th e   im a ge   pa tc he s '   a c ti va ti ons   a r e   to   e a c ot h e r S e ve r a la ye r s   in   th e s e   de e C N N s   e f f e c ti ve ly   c a pt ur e   a b s tr a c vi s ua r e pr e s e nt a ti ons L P I P S   [ 30]   is   us e f ul   in   c om pa r in th e   r e s e m bl a nc e   of   a   r e a im a ge   a nd  it s   c or r e s ponding  ge ne r a te im a ge L P I P S   is   known to be  c om pa r a bl e  t o huma n pe r c e pt io n.     3.6.    E xp e r im e n t in g w it h  C L I P  an d  i t s  var ia n t s   T hi s   s tu dy  a im e d   to   in ve s ti ga te   th e   a bi li ti e s   of   C L I P   a nd  it s   va r ia nt s   in   va r io us   e xpe r im e nt s   a nd  da ta s e ts C L I P M e ta C L I P   [ 17] a nd  m ul ti li ngua l - C L I P   w e r e   t e s te on  a   s ubs e of   2,100  c a pt io ns   f r om   th e   C e le bA   da ta s e t.   D ue   to   th e   C L I P   m ode l' s   c ont e xt   le ngt li m it a ti on,  onl th e   two  lo nge s s e nt e nc e s   in   e a c c a pt io a r e   us e f or   e va lu a ti on.  A n a ly s is   of   th e   c u s to m   S ty le G A N 2 - A DA   m ode tr a in e on  a   s ubs e of   10,500  im a ge s   f r om   th e   F a ir f a c e   da ta s e a nd  th e   pr e - tr a in e F F H Q   da ta s e S ty le G A N m ode w a s   a not he r   goa of  t hi s   r e s e a r c h. T he  s ys te m  us e d a  c ons t a nt  l e a r ni ng r a te   of  0.03 a nd 100  s te ps  f or  C L I P  a nd i ts  va r ia nt s   in   te s ti ng.  T r e vi e w   th e   s tr e ngt hs   of   th e   C L I P   va r ia nt s th e   V iT - B   vi s io m ode l,   a   vi s io tr a ns f or m e r     pr e - tr a in e w it B E R T w a s   ut il iz e d.  F or   C L I P th e   V iT - B /3 m ode l,   pr e - tr a in e on  400  m il li on  pa ir s   of   im a ge   a nd  te xt   w a s   s e le c te d,  M e ta C L I P th e   V iT - B - 32 - qui c kg e lu   a nd  m e ta c li p_f ul lc c   w e r e   c hos e to   a s s e s s   th e   M e ta C L I P   m ode tr a in e on  bi ll io im a ge - te xt   pa ir s a nd  in   m ul ti li ngua l - C L I P th e   V iT - B /3 vi s io e nc ode r   w a s   us e w it th e   M - C L I P /XL M - R obe r ta - L a r ge - V it - B - 32  te xt   e nc ode r T he   m ul ti li ngua l - C L I P   te xt   e nc ode r   ut il iz e R oB E R T a pr im a r il de s ig ne f or   c r os s - li ngua la ngua ge   pr oc e s s in ta s k s   a nd  pr e - tr a in e in   109 la ngua ge s , w hi c h pr oduc e s  e m be ddi ng s  of  s iz e  512, ma ki n g i a  s ui ta bl e  f it  f or  t hi s  a na ly s is .   T e v a lu a te   C L I P , M e t a C L I P a n m ul ti li ng ua l - C L I P   in   ge ne r a t in r e a li s ti c  a nd  a c c ur a te   im a ge s th e   L P I P S   s c or e C L I P   va r i a nt   a r c s in   lo s s a nd  F I D   s c or e   [ 29]   w e r e   u s e d .   T he   L P I P S   s c or e   f in d s   th e   pe r c e pt ua l   s im il a r it of   th e   s yn th e s iz e d   im a g e   to   th e   or ig in a l.   T he   a r c s in   lo s s   c om put e s   th e   di s t a nc e   b e tw e e n   th e   ge ne r a te d   im a ge   a nd   th e   in pu d e s c r ip ti on   in   th e   e m b e ddi n s pa c e   to   s e e   how   w e l th e   im a ge   r e pr e s e nt s   th e   c ha r a c te r i s ti c s   i th e   c a pt io n . T he   F I D   s c or e   [ 2 9]   m e a s ur e s   how   r e a li s ti c   th e  s yn th e s iz e im a ge s  a r e  c om p a r e d   to   th e   or i gi na l s A   m in im um   of   204 im a g e s r e s iz e to   299 × 2 99  pi xe l s a r e   r e qui r e to   c a lc ul a t e   a   va li F I D   s c or e T he   r e s u lt s   of   t e s ti ng  th e   a l gor it hm   w it th e   di f f e r e nt   S ty le G A N   a n C L I P   va r i a nt s   a r e   s h ow i   T a bl e s   a nd   2,  w he r e   T a b le   e x hi bi t s   th e   e va l ua ti o m e tr ic s   a nd  T a bl e   d e pi c t s   th e   im a g e s   ge ne r a t e f or   f our   di f f e r e nt   te xt   c a pt io n s . A e xpe r im e nt   w a s   c o nduc t e t a n a ly z e   th e   pe r f or m a nc e   of  e a c C L I P   v a r ia n in   ge ne r a ti ng a i m a g e   f r om  a in put   t e xt  a nd  o pt im iz i ng  it   to   m a t c th e   d e s c r ip ti on   be tt e r . T h e   lo s s   tr a j e c to r y   of   C L I P   a nd  it s   va r ia nt s a ppl i e to   th e   S ty le G A N 2 - A DA   m o de tr a in e on  th e   F a ir F a c e   D a ta s e a nd  th e   S ty le G A N m od e pr e - tr a in e d on  th e   F F H Q   da t a s e t,  a r e   de pi c t e in   F ig ur e s   a nd 3.  T he   X - a xi s   in   th e   gr a ph s   r e pr e s e nt s   e v e r 10t s t e of   th e   100  it e r a ti on s   a nd  th e   Y - a xi s   d is pl a y s   th e   c or r e s pon di ng  lo s s   va lu e s s how c a s in g e a c m od e l' s  pe r f or m a nc e   in   ge ne r a t in a im a g e   o ve r   ti m e . T h e   a lg or it hm   r a f or  100 s te p s   w it Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  5 O c to be r   20 25 3588 - 3598   3594   a   l e a r ni n r a te   of   0 .03   a nd   u s e d   th e   c a pt io n,   " T hi s   pe r s on   h a s   ba g s   und e r   hi s   e y e s   a nd  a   m us t a c h e .   H e   h a s   br ow n e ye s . H e  w e a r s  e ye gl a s s e s   a nd  is   s m il i ng w it h hi s  t e e th .   H e  h a s   th ic k  bu s hy,  a nd  a r c he e ye br ow s " .       T a bl e  1. P e r f or m a nc e  of  di f f e r e nt  m ode ls  i n t he  a lg or it hm   M ode l   C L I P   M e t a C L I P   M ul t i l i ngua l - C L I P   C L I P   M e t a C L I P   M ul t i l i ngua l - C L I P       E ngl i s h   T a m i l       E ngl i s h   T a m i l   P r e t r a i ne d S t yl e G A N - F F H Q   S t yl e G A N 2 - ADA - F a i r f a c e   F I D   39.82   40.95   46.30   50.44   63.39   72.88   73.40   86.54   A ve r a ge  L P I P S   0.54   0.53   0.55   0.57   0.62   0.61   0.63   0.64   C L I P  va r i a nt  l os s   0.66   0.64   0.68   0.68   0.66   0.66   0.69   0.69       T a bl e  2. I m a ge s  g e ne r a te d w it h C L I P  a nd i ts  va r ia nt s  on t he   s a m e  t e xt  de s c r ip ti on   S our c e   M e t hod   C ol um n 1   C ol um 2   C ol um 3   C ol um 4   O r i gi na l  i m a ge s  f r om   m ul t i - m oda l - C e l e bA - HQ   G r ound t r ut h           S t yl e G A N 2 - F F H Q   C L I P             M e t a C L I P             M ul t i l i ngua l - C L I P  E ngl i s h             M ul t i l i ngua l  C L I P  T a m i l           S t yl e G A N 2 - ADA  F a i r F a c e   C L I P             M e t a C L I P             M ul t i l i ngua l  C L I P  E ngl i s h             M ul t l i ngua l  C L I P  T a m i l           C ol um 1:   H e   i s   young  a nd   ha s   m out s l i ght l y   ope n,  ba gs   unde r   e ye s r os c h e e ks ba ngs hi gh  c he e kbone s doubl e   c hi n,  w a vy   ha i r , a nd bl a c k ha i r .   C ol um n 2:  S he  ha s  w a vy ha i r , m out h s l i ght l y ope n, br ow n ha i r , a nd r os y c he e k s  a nd w e a r s  l i p s t i c k.   C ol um n 3:  T hi s  m a n i s  s m i l i ng a nd ha s  poi nt y nos e , bl a c k ha i r , ba gs  und e r  e ye s , bi g nos e , s i de bur ns , a nd bu s hy    e ye br ow s .   C ol um 4:   T he   pe r s on  i s   s m i l i ng,  a nd  young  a nd  ha s   bl ond  ha i r na r r ow   e ye s ,   m out s l i ght l ope n,  a nd  hi gh   c he e kbone s .   T hi s   pe r s on i s  w e a r i ng he a vy m a ke up  a nd w a vy ha i r   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       F ac e Sy nt h:  t e x t - to - fa c e  ge ne r at io n us in g C L I P  and it s  v ar ia nt s   w it h …  ( P r iy adhar s in R av is ank a r )   3595       F ig ur e  2. G r a ph c om pa r in g t he  l os s  va lu e s   C L I P , M e ta C L I P , m ul ti li ngua l - C L I P   E ngl is h, a nd mul ti li ngua T a m il  f or  t he  F a ir F a c e  da ta s e t           F ig ur e  3. G r a ph c om pa r in g t he  l os s  va lu e s   C L I P , M e ta C L I P , m ul ti li ngua l - C L I P   E ngl is h, a nd mul ti li ngua T a m il  f or  t he  F F H Q  da ta s e m ul ti li ngua T a m il  f or  t he  F a ir F a c e  da ta s e t       4.   R E S U L T S  A N D  D I S C U S S I O N   4.1.    R e s u lt s   T a bl e   hi ghl ig ht s   th e   di f f e r e nc e   be twe e C L I P   a nd  it s   va r ia nt s   in   ge ne r a ti ng  r e a li s ti c   a nd  a c c ur a te   im a ge s T he   S ty le G A N m ode pr e - tr a in e on   th e   F F H Q   da ta s e s how s   C L I P   s li ght ly   out pe r f or m in g   M e ta C L I P   in   F I D   s c or e s   [ 29] w it bot a c hi e vi ng  lo w   s c or e s   th a di s pl a th e   hi gh  r e a li s m   of   th e   im a ge s M e ta C L I P   e xhi bi ts   be tt e r   a tt r ib u te   r e pr e s e nt a ti on  th a C L I P in di c a te by  it s   lo w e r   L P I P S   s c or e   [ 30]   a n d   C L I P   va r ia nt   lo s s M ul ti li ngua l - C L I P   [ 20]   s how s   di f f e r e nt   r e s ul ts   ba s e on  th e   la ngua ge   th a it   us e s .     I E ngl is h,  it   ha s   a   hi ghe r   F I D   s c or e   th a C L I P   a nd  M e t a C L I P ge ne r a ti ng  good - qua li ty   im a ge s   but   s tr uggl in to   r e pr e s e nt   f in e - gr a in e a tt r ib ut e s c ha r a c te r iz e d   by  it s   L P I P S   s c or e   a nd  C L I P   va r ia nt   lo s s .     I T a m il m ul ti li ngua l - C L I P   ha s   in f e r io r   pe r f o r m a nc e w it hi ghe r   L P I P S   s c or e s   a nd  C L I P   va r ia nt   lo s s ,   ha vi ng  s ig ni f ic a nt   e r r or s   in   r e pr e s e nt in a tt r ib ut e s   s uc a s   ha ir   a nd  li p   c ol or e .g.  th e   in put   te xt   bl onde   ha i r   ge ne r a te s  pur pl e  ha ir  i n T a bl e  2.   T he   pe r f or m a nc e   of   th e   c u s to m   S ty le G A N 2 - A DA   m ode tr a in e on  th e   F a ir f a c e   da ta s e s ho w c a s e s   hi ghe r   F I D   s c or e s w hi c in di c a te   le s s   r e a li s ti c   im a ge s   th a th e   S ty le G A N m ode p r e - tr a in e on  th e   F F H Q   da ta s e t.   F or   S ty le G A N 2 - A DA C L I P   is   m uc be tt e r   a ge ne r a t in r e a li s ti c   im a ge s c om pa r e to   M e ta C L I P ,   but   bot unde r pe r f or m   c om pa r e to   th e ir   c ount e r pa r ts   us in g   th e   S ty le G A N F F H Q   m ode l.   M ul ti li ngua l - Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  5 O c to be r   20 25 3588 - 3598   3596   C L I P   f a ll s   be hi nd  C L I P   a nd  M e ta C L I P   in   F I D L P I P S a nd  C L I P   va r ia nt   lo s s   s c or e s   a nd  h a s   i s s ue s   r e pr e s e nt in g c e r ta in  a tt r ib ut e s  i n t he  t e xt  c a pt io ns , p a r ti c ul a r ly  i n T a m il .   F ig ur e s   a nd  3,  di s c us s   th e   lo s s   c ur ve s   a nd  c onve r ge nc e   of   th e   C L I P   va r ia nt s   a nd  S ty le G A N   m ode ls I F ig ur e   2,  M e ta C L I P s   lo s s   de c r e a s e s   qui c kl y   in it ia ll y,  s lo w in dow n   a r ound  th e   50t h   s te p.   C L I P   s ta r ts   w it a   hi ghe r   lo s s   th a th e   ot h e r   C L I P   va r ia nt s   but   f ol lo w s   a   s im il a r   tr e nd  to   M e ta C L I P T he   m ul ti li ngua l - C L I P   m ode s how s   a   s te a dy  de c r e a s e   in   lo s s   va lu e s w it th e   E ngl is m ode pe r f or m in s li ght ly   be tt e r   th a th e   T a m il   one I c ont r a s t,   th e   F F H Q   S ty le G A N m ode l,   in   F ig ur e   3,  di s pl a ys   be tt e r   pe r f or m a nc e   f or   a ll   th e   C L I P   m ode ls   th a th e   c us to m   F a ir F a c e   S ty le G A N 2 - A DA   m ode l.   M e ta C L I P   a c hi e ve s   th e   be s pe r f or m a nc e   w it a   s te e pe r   a nd  lo w e r   lo s s   c ur ve w hi le   C L I P   a nd  m ul ti li ngua l - C L I P   ha ve   s im il a r   c our s e s w it h a n i ni ti a ll y s ha r p de c r e a s e  i n t he  l o s s  f unc ti on t ha th e n gr a dua ll y s ta bi li z e s .     4.2.  Dis c u s s io n   T hi s   pa pe r   a na ly s e s   th e   pe r f or m a nc e   of   di f f e r e nt   S ty le G A N   m ode ls   [ 9] [ 11]   a nd  C L I P   va r ia nt s   in   a   tr a in in g - f r e e   te xt - to - f a c e   ge n e r a ti on  m ode l.   E a r li e r   r e s e a r c e xa m in e te xt - to - f a c e   ge ne r a ti on  w it C L I P bu t   th e r e   ha s   be e li tt le   in ve s ti ga ti on  of   M e ta C L I P a   r e c e nt   de v e lo pm e nt   tr a in e on  one   bi ll io im a ge - te xt   pa ir s .   M ul ti li ngua l - C L I P   ha s   ha in a de qua te   r e s e a r c a nd  c a a s s is t   in   m ul ti li ngua te xt - to - f a c e   ge ne r a ti on.  T hi s   r e s e a r c a im s   to   unde r s ta nd  th e   a dva nt a ge s   a nd  di s a dv a nt a g e s   of   C L I P   a nd  it s   va r ia nt s   by  c onduc ti ng  a   c om pa r a ti ve   s tu dy.  O ur   in ve s ti ga ti on  f ound  th a t   th e   S ty le G A N m ode pr e - tr a in e on   th e   F F H Q   da ta s e s ur pa s s e s   th e   c u s to m   S ty le G A N 2 - A DA   m ode in   r e a li s m a s   in di c a te by  th e   lo w e r   F I D   s c or e s how e ve r th e   S ty le G A N 2 - A DA   m ode ls   pr oduc e m or e   di ve r s e   a nd  f a ir   i m a ge s T h e   F F H Q   m ode l,   tr a in e on  70,000  im a ge s s how e be tt e r   f e a tu r e   r e pr e s e nt a ti on  th a th e   F a ir F a c e   m ode [ 21] tr a in e on  onl 10,500  im a ge s .   T he   im a ge s   s ynt he s iz e by  th e   pr e - tr a in e S ty le G A N m ode a r e   of   s upe r io r   qua li ty   a nd  c la r it y,  w hi c a id e C L I P   a nd  it s   v a r ia nt s   in   a s s oc ia ti ng  th e   e xt r a c te d   f e a tu r e s   of   th e   s ynt he s iz e d   im a ge s   to   th e ir   t e xt   de s c r ip ti ons le a di ng  to   be tt e r   c onv e r ge nc e M e ta C L I P   s ynt he s iz e s   im a ge s   th a a r e   th e   m o s a c c ur a te   to   th e   de s c r ip ti on,  w he r e a s   C L I P   c r e a te s   th e   m os r e a li s ti c   im a ge s . M e ta C L I P ' s   lo w   L P I P S   s c or e   c oul be   due   to   it s   di ve r s e  a nd  e a s il tr a ve r s a bl e   e m be ddi ng  s pa c e T hi s   is   e m ph a s iz e by   M e ta C L I P ' s   s ha r a nd  lo w   c ur ve   s how in     F ig ur e   3.  C L I P   d is pl a ys   th e   be s r e a li s m de not e by  it s   F I D   s c or e s   a nd  be tt e r   c onve r ge nc e   th a th e   m ul ti li ngua l - C L I P   m ode l.   M ul ti li ngua l - C L I P s   T a m il   a nd  E ng li s pe r f or m a nc e   w a s   s a ti s f a c to r in   br id gi ng   th e   ga in   m ul ti li ngua te xt - to - im a ge   ge ne r a ti on.  F in a ll y,  te s ti ng  dur a ti ons   f or   C L I P   a nd  m ul ti li ngua l - C L I P   w e r e  s hor te r  t ha n M e ta C L I P  due  t o t he  l a r ge  a m ount  of  i nf or m a ti on t ha M e ta C L I P  pr oc e s s e s  w hi le  t e s ti ng.   A c c or di n t ou r   ou tc om e s i c a be   c on c lu de t ha t   M e t a C L I P ' s   m a s s i ve   a m ou nt   of   hi gh - q ua li t tr a i ni n da ta   c on tr ib ut e s   t th e   pow e r f ul   a nd  e f f ic i e nt   na vi g a t i on  of   it s   s ha r e d   e m b e d di n s p a c e T hi s   s t ud r e in f or c e s   M e t a C L I P ' s   s u pe r io r   p e r f or m a nc e   i vi s u a l - l in g ui s t i c   t a s k s   c o m p a r e t C L I P .   M ul t il i ng ua l - C L I P w hi c h   u ti l iz e d   R o B E R T a ,   a n tr a in e d   o a   m a s s iv e   bo dy   of   d a ta   on   C o m m o nC r a w l,   h a d   i n a c c ur a c i e s   i f a c e   ge n e r a ti on . T h e  T a m il   m u lt i li n gu a l - C L I P  h a s  a   le s s  c le a r l y d e f in e e m b e d di n s p a c e  a nd  c o nv e r g e s  s lo w e r  t h a n   th e  ot he r  C L I P  m od e l s a s  i nd ic a t e d by  i t s  s c or e s . T hi s  c o ul d be  due   to  t h e   tr a n s l a ti on i n c o ns is te nc ie s  of  c e r ta i w or d s   i th e   c a pt io n s w hi c h   i di d   not   e n c ou nt e r   in   tr a i ni n g,   w hi c h   s h ow s   th e   n e e f or   f ur t he r   r e s e a r c h   o m ul t il i ngu a m od e l s O ur   r e s e a r c h a t he   f ol lo w in li m it a ti on s T h e r e   w e r e   h a r d w a r e   a n c om p ut a ti on a l   li m it a t io n s  t h a c o nf i ne d t he   tr a in i ng  of  t h e  S t yl e G A N 2 - A DA   m o de l . I n c r e a s in g  t h e   s i z e  of  t h e  F a ir F a c e  t r a in in g   da t a s e a nd   im pr ov in th e  qu a li ty  of   t he  d a ta   c oul d e nr i c h   th e   r e a li s m   of  t h e   m o d e l.  T he   s y s t e m  pr e s e nt e d   h a s   a   r e li a n c e   on  pr e - tr a in e m od e l s w hi c m a li m it   i ts   nu a n c e   i te xt - to - f a c e   s yn th e s i s R e c e nt   ob s e r v a ti on s   e s ta bl i s he M e t a C L I P ' s   a bi l it y   t o   g e n e r a te   i m a ge s   c lo s e l a l ig ne d   to   th e   t e x a n d   C L I P ' s   a b il i ty   t pr o du c e   hi gh ly   r e a li s t ic   out put s F ut ur e   r e s e a r c c a e x pl or e   t he   f e a s ib il it of   t he   di f f e r e nt   c o nf ig ur a ti on s   of   C L I P ' s   vi s io tr a n s f or m e r s ,   t e xt   e nc od e r s ,   a nd   o th e r   lo s s   f u nc t io ns .   S ty l e G A N   w a s   u s e d   in   our   s y s t e m   t e x a m in e   th e   C L I P   va r ia nt s ,   b ut   di f f u s io m od e l s   [ 2]   c a n   a ls be   i nv e s ti g a t e d.   M ul ti l in g ua l - C L I P ' s   pe r f or m a n c e   i ot h e r   la n gu a g e s   c a n be   i m pr ov e b f in e - t uni ng  i w i th   b e t te r  c a pt io n s E xt e nd in g t hi s  s t udy to  o th e r   vi s i on - la ngu a ge   m od e l s   a n ne w e r   C L I P   va r ia nt s   c a gi v e   u s  i ns ig ht   in t o o th e r   te xt - to - im a g e   ge ne r a t io n  a ppr oa c h e s .       5.   C O N C L U S I O N   I th is   p a pe r w e   h a ve   s uc c e s s f ul ly   e xa m in e th e   pe r f or m a nc e   of   th e   vi s ua l - li ngui s ti c   m ode l s C L I P M e t a C L I P ,   a nd   m ul ti li ngu a l - C L I P   i t e xt - to - f a c e   ge ne r a ti on   us in S ty l e G A N .   T hi s   s tu dy   ut il i z e d   a   tr a i ni ng - f r e e   a lg or it hm   th a i te r a ti ve ly   opt im iz e a   l a te nt   c ode   to   ge ne r a te   a   f in a im a g e   a nd  c om p a r e d   th e   pr e - tr a in e d   S ty le G A N m od e w it a   c u s to m   S ty l e G A N 2 - A DA   m ode l.   Q ua li t a ti v e   a n a ly s is   w a s   c ondu c te w it h   e va lu a ti on   m e tr i c s  l ik e   F I D   s c or e   a nd   L P I P S   a nd a   lo s s   f unc ti o th a f i nds   th e   s im il a r it y of   a n i nput  c a pt io t a im a ge S in c e   th e   a lg or it hm   i s   tr a in in g - f r e e   it   i s   hi ghl de p e nde nt   on  th e   C L I P   v a r ia n ts   t e xt - e nc o de r O ur   f in di ngs   h e lp   us   c o nc lu d e   th a t   M e ta C L I P   out doe s   C L I P   a nd  m ul ti li ngu a l - C L I P   i C L I P   va r i a nt   lo s s ,   w hi c h   in di c a te s   th a it   c l os e ly   m a t c he s   th e   a tt r ib ut e s   in   t he   gi v e te xt C L I P on  th e   ot h e r   ha nd, s ynt he s iz e th e   m o s t   r e a li s ti c  f a c e s  a n d ha d t h e  l ow e s F I D  s c or e . D e s pi te   m ul ti li ngu a l - C L I P  e xhi bi ti ng l e s s e r  a c c ur a c y a nd r e a li s m Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       F ac e Sy nt h:  t e x t - to - fa c e  ge ne r at io n us in g C L I P  and it s  v ar ia nt s   w it h …  ( P r iy adhar s in R av is ank a r )   3597   it   pr ovi de s   a   c hoi c e   in   th e   in put   te xt   la ng ua g e ,   w hi c c r e a te s   m or e   a c c e s s ib i li ty   in   te xt - to - f a c e   ge n e r a ti o gl oba ll y.  H o w e v e r it   s tr u ggl e s   t r e pr e s e nt   c e r t a in   c om m on   f e a tu r e s   a nd   e xh ib it s   e n ta ngl e m e nt   b e twe e n   a tt r ib ut e s .  F ut ur e  r e s e a r c c a a im  t o i m pr ov e  t h e s e  l im it a ti on s   a nd e xpl or e  ne w e r  vi s u a l - li ng ui s ti c  m o de l s .       F U N D I N G  I N F O R M A T I O N   A ut hor s  s ta te  no f undi ng i nvol ve d.       A U T H O R  C O N T R I B U T I O N S  S T A T E M E N T   T hi s   jo ur na us e s   th e   C ont r ib ut or   R ol e s   T a xonomy  ( C R e di T )   to   r e c ogni z e   in di vi dua l   a ut hor   c ont r ib ut io ns , r e duc e  a ut hor s hi p di s put e s a nd f a c il it a te  c ol la bo r a ti on     N am e  o f  A u t h or   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   P r i y a d h a r s i ni   R a v i s a n k a r                               S hr ut hi  D ha nva nt h                               V a is hna ve   J e na ne   P a dm a na bha n                                 C     C onc e pt ua l i z a t i on   M     M e t hodol ogy   So     So f t w a r e   Va     Va l i da t i on   Fo     Fo r m a l  a na l ys i s   I     I nve s t i ga t i on   R     R e s our c e s   D   :   D a t a  C ur a t i on   O   :   W r i t i ng  -   O r i gi na l  D r a f t   E   :   W r i t i ng  -   R e vi e w  &   E di t i ng   Vi     Vi s ua l i z a t i on   Su     Su pe r vi s i on   P     P r oj e c t  a dm i ni s t r a t i on   Fu     Fu ndi ng a c qui s i t i on         C O N F L I C T  O F  I N T E R E S T  S T A T E M E N T   A ut hor s  s ta te  no c onf li c of  i nt e r e s t.       D A T A  A V A I L A B I L I T Y   D a t a   a va i la bi l it y  i s   not  a pp li c a b le  t o t hi s   pa pe r  a s  no  n e w  d a t a   w e r e   c r e a t e d  or  a na ly z e in   th i s  s tu d y.         R E F E R E N C E S   [ 1]   I .  J G oo d f e l l ow   e t  a l . , “ G e ne r a t i ve  a dve r s a r i a l  ne t s ,”  i A d v an c e s   i ne ur al  i nf or m at i o n pr oc e s s i ng  s y s t e m s 20 14,  p p.  26 72 26 80 .   [ 2]   J S ohl - D i c ks t e i n,  E A W e i s s N M a he s w a r a na t ha n,  a nd   S G a ngul i ,   D e e uns upe r vi s e l e a r ni ng  u s i ng  none qui l i br i um   t he r m odyna m i c s ,”   32nd I nt e r nat i onal  C onf e r e n c e  on M ac hi ne  L e ar ni ng, I C M L  2015 , vol . 3, pp. 2246 2255, 2015.   [ 3]   M . M i r z a  a nd S . O s i nd e r o, “ C ondi t i ona l  ge ne r a t i ve  a dve r s a r i a l  ne t s ,”   ar X i v - C o m put e r  Sc i e nc e pp. 1 - 7, N ov.  2014 .   [ 4]   A R a df or d,  L M e t z a nd  S C hi nt a l a U ns upe r vi s e r e pr e s e nt a t i on  l e a r ni n w i t de e c onvol ut i ona l   ge ne r a t i ve   a dve r s a r i a l   ne t w or ks ,”   4t h I nt e r nat i onal  C onf e r e n c e  on L e ar ni ng R e pr e s e nt at i ons   -   C onf e r e nc e  T r ac k  P r oc e e di ngs , 2015 , pp. 1 - 16 .   [ 5]   T X e t   al . A t t nG A N :   f i ne - g r a i ne t e xt   t i m a ge   ge ne r a t i on  w i t a t t e nt i ona l  ge ne r a t i ve   a dve r s a r i a l   ne t w or ks ,”   2018  I E E E / C V F   C onf e r e nc e  on C om put e r  V i s i on and P at t e r n R e c ogni t i on , pp. 1316 1324, 2018, doi :   10.1109/ C V P R .2018.00143.   [ 6]   H Z ha ng  e t   al . S t a c kG A N :   t e xt   t o   phot o - r e a l i s t i c   i m a ge   s ynt h e s i s   w i t s t a c ke ge ne r a t i ve   a dve r s a r i a l   ne t w or ks ,”   P r oc e e di ng s   of  t he  I E E E  I nt e r nat i onal  C onf e r e nc e  on C om put e r  V i s i on , pp. 5908 5916, 2017, doi :  10.1109/ I C C V .2017.629.   [ 7]   T . K a r r a s , S . L a i ne , a nd T . A i l a , “ A  s t yl e - ba s e d ge ne r a t or  a r c hi t e c t ur e  f or  ge ne r a t i ve  a dve r s a r i a l  ne t w or ks ,”   I E E E  T r ans ac t i ons  on   P at t e r n A nal y s i s  and M ac hi ne  I nt e l l i ge nc e , vol . 43, no. 12, pp. 4217 4228, 2021, doi :  10.1109/ T P A M I .2020.2970919.   [ 8]   T K a r r a s T A i l a S L a i ne a nd   J L e ht i ne n,  P r ogr e s s i ve   gr ow i ng  of   G A N s   f or   i m pr ove qua l i t y,  s t a bi l i t y,  a nd  va r i a t i on,”   6t h   I nt e r nat i onal  C onf e r e nc e  on L e a r ni ng R e pr e s e nt at i ons , I C L R  2018  -   C onf e r e nc e  T r ac k  P r oc e e di ng s , 2018 , pp. 1 - 26 .   [ 9]   T .   K a r r a s ,   S L a i n e ,   M .   A i t t a l a ,   J .   H e l l s t e n J .   L e h t i n e n a n T .   A i l a ,   A n a l y z i ng   a n d   i m p r ov i n g   t h e   i m a ge   q ua l i t y   o f   s t y l e ga n ,   2 0 20  I E E E / C V F   C o n f e r e nc e   on   C om p u t e r   V i s i on   a n P a t t e r n   R e c o g n i t i o n ,  p p .   81 0 7 81 16 ,   2 0 2 0,   d o i :   1 0 . 11 0 9 / C V P R 4 2 6 0 0. 2 0 2 0. 0 0 8 13 .   [ 10]   T K a r r a s   e t   al . A l i a s - f r e e   ge ne r a t i ve   a dve r s a r i a l   ne t w or ks ,”   A dv anc e s   i n   N e ur al   I nf or m at i on  P r oc e s s i ng  S y s t e m s vol 2,     pp. 852 863, 2021.   [ 11]   T . K a r r a s , M .  A i t t a l a , J . H e l l s t e n, S .  L a i ne ,  J . L e ht i ne n, a nd  T . A i l a , “ T r a i ni ng  ge ne r a t i ve  a dve r s a r i a l  ne t w or ks  w i t h  l i m i t e d da t a ,   A dv anc e s  i n N e u r al  I nf or m at i on P r oc e s s i ng Sy s t e m s , 2020 , pp. 1 - 11 .   [ 12]   D M A .   A ya nt hi   a nd  S .   M una s i nghe T e xt - to - f a c e   ge ne r a t i on  w i t s t yl e G A N 2,”   C om put e r   Sc i e nc e   &   I nf or m at i on  T e c hnol og y pp. 49 64, 2022, doi :  10.5121/ c s i t .2022.120805.   [ 13]   M S S a ba e M A D a r di r ,   R T .   E s ka r ous a nd  M R E bbe d,   S t yl e T 2F :   ge n e r a t i ng  hum a f a c e s   f r om   t e xt ua l   de s c r i pt i on  us i ng  s t yl e G A N 2,”   ar X i v - C om put e r  Sc i e nc e , pp. 1 - 10,   A pr 2022 .   [ 14]   A R a df or e t   al . L e a r ni ng  t r a ns f e r a bl e   vi s ua l   m ode l s   f r om   na t ur a l   l a ngua g e   s upe r vi s i on,”   P r oc e e di ngs   of   M ac hi ne   L e a r ni ng   R e s e ar c h , vol . 139, pp. 8748 8763, 2021.   [ 15]   O P a t a s h ni k Z W u,   E .   S he c h t m a n,   D C ohe n - O r a nd   D L i s c h i ns k i ,   S t yl e C L I P :   t e xt - d r i ve m a n i p ul a t i on   o f   S t yl e G A N   i m a ge r y,   202 I E E E / C V F   I n t e r n at i on al  C o nf e r e nc e  on  C o m pu t e r   V i s i on  ( I C C V ) pp . 2 06 5 20 74,  2 021 do i :   10 .11 09 / I C C V 4 892 2. 202 1. 002 09 .   [ 16]   W X i a Y Y a ng,  J H X ue a nd  B W u,   T e di G A N :   t e xt - gui de di ve r s e   f a c e   i m a ge   ge ne r a t i on  a nd  m a ni pul a t i on,”   202 1   I E E E / C V F   C onf e r e nc e   on  C om put e r   V i s i on  and  P at t e r n   R e c ogni t i on  ( C V P R ) pp.  2256 2265,  2021,  doi :   10.1109/ C V P R 46437.2021.00229.   Evaluation Warning : The document was created with Spire.PDF for Python.