I AE S In t er na t io na l J o urna l o f   Ro bo t ics a nd   Aut o m a t io ( I J RA)   Vo l.  1 5 ,   No .   1 Ma r ch   20 2 6 ,   p p .   1 36 ~ 1 48   I SS N:  2 7 2 2 - 2 5 8 6 ,   DOI : 1 0 . 1 1 5 9 1 /ijra . v 1 5 i 1 . p p 1 36 - 1 48        136       J o ur na l ho m ep a g e h ttp : //ij r a . ia esco r e. co m   M ulti - mo da tran sfo rmer and  conv o lutiona l attent io a rchitec t ures   for  mela no ma  det ecti o n in der mo sco pi c ima g es       G uid o um   Am ina ,   M a a m a B o ug hera ra ,   Am a ra   Ra f i k   D e p a r t me n t   o f   C o mp u t e r   S c i e n c e ,   H i g h e r   N o r m a l   S c h o o l   o f   K o u b a ,   A l g i e r s,  A l g e r i a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Oct  3 0 2 0 2 5   R ev is ed   Dec   7 2 0 2 5   Acc ep ted   Feb   2 1 ,   2 0 2 6       Th e   d e a d li e st  ty p e   o sk i n   c a n c e r,   m e lan o m a ,   re q u ires   e a rly   a n d   a c c u ra te  d e tec ti o n   fo r   a   s u c c e ss fu c o u rse   o trea tme n t.   Trad it io n a d iag n o sti c   tec h n iq u e s,  wh ic h   re ly   o n   v isu a l   in sp e c ti o n   a n d   d e rm o sc o p y ,   a re   f re q u e n tl y   a rb it ra ry   a n d   p r o n e   t o   h u m a n   e rro r.   Au t o m a ted   m e lan o m a   d e tec ti o n   e x e m p li fies   th e   in te g ra ti o n   o m u lt ime d ia,  a   tru l y   i n terd isc ip li n a r y   field   th a t   m e ld v isu a d a ta  p ro c e ss in g ,   h u m a n - c o m p u ter  in tera c ti o n ,   a n d   d i g it a l   tec h n o l o g ies .   T h is  stu d y   p re se n ts   a   m u lt i - m o d a a rc h it e c tu re a   m u lt i - m o d a l   tr a n sfo rm e n e two rk   (M M TN)  a n d   a   c o n v o l u ti o n a a tt e n ti o n   m e c h a n ism   m u lt i - m o d a (CAMM th a c o m b in e c li n ica d a ta  a n d   d e rm o sc o p y   ima g e to   e n h a n c e   m e lan o m a   d e tec ti o n .   Th e   m o d e ls  a c h iev e   h ig h e p e rfo rm a n c e   c o m p a re d   to   o t h e a p p ro a c h e b y   u ti li z i n g   th e   stre n g th s   o f   a rc h it e c tu re   b a se d   o n   tra n sfo rm e rs,  a n   e n c o d e f o i m a g e   p ro c e ss in g ,   d e n se   lay e rs  f o c li n ica l   d a ta als o   S p a ti a Atten t io n   fo t h e   se c o n d   a rc h it e c tu re   p r o p o se d .   W e   e v a lu a te   th e   m o d e ls  o n   t h e   e n ti re   se o IS IC  2 0 1 9   d a ta,  sh o wi n g   s ig n ifi c a n t   imp ro v e m e n ts  i n   a c c u ra c y   a n d   A UC.  Th e   m o d e ls  a c h iev e   h ig h   a c c u ra c y   a n d   AU u sin g   C P in   b o th   a rc h it e c tu re s.  Ou fin d i n g h ig h li g h th e   p o ten t ial   o a   m u lt i - m o d a lea rn i n g   a rc h it e c tu re   to   e n h a n c e   c li n ica d e c isio n - m a k i n g   a n d   d ia g n o stic  a c c u ra c y   in   d e rm a to lo g y .   T o   o u k n o wle d g e ,   t h is  is  th e   first   imp lem e n tatio n   c o m b in i n g   M o b i leN e t,   tran sfo rm e e n c o d e a tt e n ti o n ,   a n d   c li n ica d a ta   fu si o n   fo r   th e   IS IC  2 0 1 9   d a tas e t,   p r o v i d i n g   a   sig n ifi c a n t   a d v a n c e m e n in   th e   a u t o m a ted   c a t e g o riza ti o n   o f   sk i n   m a li g n a n c ies .   K ey w o r d s :   Ar ch itectu r es   C lin ical  d ata  f u s io n   E n co d er   atten tio n   I m ag p r o ce s s in g   Mu lti - m o d al   T r an s f o r m e r   n etwo r k   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Gu id o u m   Am in a   Dep ar tm en t o f   C o m p u ter   Scie n ce ,   Hig h er   N o r m al  Sch o o l o f   Ko u b a     Alg ier s ,   Alg er ia   E m ail: a m in a. g u id o u m @ g . en s - k o u b a. d z       1.   I NT RO D UCT I O N   Sk in   ca n ce r ,   esp ec ially   m elan o m a,   h as  h ig h   d ea th   r ate   if   l ef u n tr ea te d ,   it   p r esen ts   a   s er io u s   p u b lic   h ea lth   co n ce r n .   T r ad itio n al  d i ag n o s tic  tech n iq u es,  s u ch   as  d er m o s co p y   an d   v is u al  ex am i n atio n ,   r ely   h ea v ily   o n   th e   d e r m ato lo g is t s   s u b jectiv in ter p r etatio n .   T h is   ca n   r esu lt  in   u n d iag n o s ed   ca s es  an d   v ar ia b ilit y   i n   d iag n o s tic  r esu lts   b etwe en   p r ac titi o n er s .   R ec en d ev elo p m en ts   in   im ag p r o ce s s in g   an d   ar t if icial  in tellig en ce   h av s h o w n   p r o m is in   au to m atin g   an d   in c r ea s in g   t h p r ec is io n   o f   s k in   ca n ce r   d etec tio n ,   esp ec ially   in   t h e   ar ea   o f   m e d ical  im ag in g .   I m a g p r o ce s s in g   r e p r esen ts   s p ec ialized   d o m ain   with in   m u ltime d ia,   ly in g   at  th e   in ter s ec tio n   o f   co m p u ter   s cien ce ,   elec tr o n ics,  an d   v is u al   s cien ce s   [ 1 ] ,   [ 2 ] .   T h is   f ield   h ar n ess es  ad v an ce d   co m p u tatio n al  m eth o d s   an d   e lectr o n ic  tech n iq u es  to   an aly ze ,   en h an ce ,   an d   tr an s f o r m   v is u al  d ata,   th er eb y   s u p p o r tin g   wid ar r ay   o f   ap p licatio n s   f r o m   m ed ical  im a g in g   to   d ig ital e n ter tai n m en t.   Au to m atin g   th is   d iag n o s tic  p r o ce s s   is   th er ef o r cr u cial  to   e m p o wer in g   d er m ato lo g is ts   an d   en s u r in g   ea r ly   an d   s y s tem atic  s cr ee n in g .   W h ile  d ee p   lear n in g ,   an d   in   p ar ticu lar   co n v o lu tio n al  n e u r al  n etwo r k s   ( C NNs)   [ 3 ] ,   h a v s h o wn   p r o m is f o r   a n aly zin g   d er m o s co p ic  im ag es,   th ese  u n im o d al  ap p r o ac h es   [ 4 ] [ 7 ]   o f ten   n e g lect  Evaluation Warning : The document was created with Spire.PDF for Python.
I AE S I n t J Ro b   &   Au to m   I SS N:   2722 - 2 5 8 6         Mu lti - mo d a l tra n s fo r mer a n d   co n vo lu tio n a l a tten tio n   a r ch it ec tu r es fo r   mela n o ma     ( Gu i d o u A min a )   137   ess en tial  co n tex tu al  in f o r m ati o n   p r o v id e d   b y   p atien m etad ata,   s u ch   as  ag e   an d   s ex ,   wh i ch   ar k n o w n   r is k   f ac to r s   f o r   m elan o m a.   T o   o v e r co m th is   lim itatio n ,   we  p r o p o s n o v el  m u ltimo d al  lear n in g   f r am ewo r k   th a t   s y n er g is tically   f u s es  v is u al  p atter n s   f r o m   d e r m o s co p ic   im ag es  with   s tr u ctu r ed   clin ic al  d ata.   Ou r   m ain   co n tr ib u tio n   lies   in   th in tr o d u ctio n   an d   co m p ar ativ e v alu atio n   o f   two   o r ig i n al  an d   d is tin ct  ar ch itectu r es   d esig n ed   f o r   th is   f u s io n m u ltimo d al  tr an s f o r m er   n etw o r k   ( MM T N)   an d   m u ltimo d al  n etwo r k   with   a   co n v o l u tio n al  atten tio n   m ec h an is m   ( C AM M) .   T h ese  m o d els  ar e   s p ec if ically   d esig n ed   to   lev er ag e   th e   co m p lem en tar y   s tr en g th s   o f   i m ag in g   an d   clin ical  d ata,   g o in g   b e y o n d   u n im o d al  an al y s is   to   o f f er   m o r e   h o lis tic  an d   au to m ated   d iag n o s tic  s u p p o r t.   Ou r   co n tr i b u tio n s   in cl u d e:  a   n o v el  m u ltimo d al  t r an s f o r m er   ar ch itectu r e   th at  u s es  i m ag d ata   au g m en tatio n   v ia  I m a g eDa taGe n er ato r   ( h o r izo n tal  f lip ,   s h ea r ,   zo o m ,   s h if ts ,   r o tatio n s )   an d   p r e p r o ce s s in g   ( R GB   v alu n o r m aliza tio n   an d   r esizin g )   f o r   im a g p r o ce s s in g cu s to m   d ata  g en er ato r s   to   co m b in im ag b atch es  with   clin ical  d ata  ( a g e,   s ex ) two - in p u m u ltimo d al  lear n in g   th at  m er g es  v is u al  ( Mo b ileNet)   an d   clin ical  f ea tu r es;  an d   a   cu s to m   atten tio n   m ec h a n is m   ( T r a n s f o r m er B lo ck )   with   f o u r   m u lti - h ea d   atten tio n al   elem en ts ,   lay er   n o r m aliza tio n ,   an d   f ee d - f o r wa r d   n etwo r k .   T h is   h y b r id   ap p r o ac h   co m b in es  p r e - tr ain e d   C NNs,   s tr u ctu r ed   d ata,   an d   atten tio n al  m ec h an is m s .   Fo r   th s ec o n d   p r o p o s ed   ar ch itec tu r ( C AM M) ,   o u r   co n tr ib u tio n s   ar e:  s tr atif ied   cla s s   im b alan ce   m an ag em en t; a   m u ltimo d al  ar ch itectu r u s in g   ch an n el  an d   s p atial  atten tio n   to   f o c u s   o n   r ele v a n lesi o n s ,   wh o s clin ical  f u s io n   ( a g e/sex )   im p r o v es  co n tex tu aliza tio n   a n d   in cr ea s es  th a r ea   u n d er   th R OC   cu r v ( AUC )   [ 8 ]   b y   +8 co m p ar e d   to   p u r ely   v is u al  m o d els;   an d   r o b u s t   g en er aliza tio n   t h r o u g h   d ata  a u g m en tatio n   ( co n tr ast,  b r ig h t n ess ,   f lip p in g )   cr ea tin g   ar tifi cial  v ar iab ilit y ,   an d   is o to n ic  ca lib r atio n   alig n in g   p r ed ictio n s   with   clin ical  r ea lity ,   m ain tain in g   c o n s tan test   A UC   o f   0 . 8 7   d esp ite  th co m p lex ity   o f   th e   I SIC d at a.   Ma u r y et  a l.   [ 9 ]   in tr o d u c es  Du alAu to E L M,   AI   p o wer ed   m eth o d   d esig n ed   to   en h an ce   th e   ca teg o r izatio n   o f   d if f e r en ty p es  o f   s k in   ca n ce r .   T h p r o p o s e d   tech n iq u e   u s es  d u al  au to e n co d er   ar c h itectu r e,   an d   a   f ast  Fo u r ie r   tr an s f o r m   ( FFT )   au to en co d er   t h at  ex am i n es  tex tu r al  d etails  an d   f r eq u en cy   p atter n s   u s in g   FFT   tr an s f o r m ed   im ag r e co n s tr u ctio n .   th f r am ew o r k   h as  b ee n   test ed   o n   th p u b licly   ac c ess ib le  HAM 1 0 0 0 0   [ 1 0 ] .   T h m o d el s   ac c u r ac y   an d   p r ec is io n   f o r   HAM 1 0 0 0 0   a n d   I SIC   2 0 1 7   ar e   9 7 . 6 8 an d   9 7 . 6 6 %,   r esp ec tiv ely ,   an d   8 6 . 7 5 % a n d   8 6 . 6 8 %,  r esp ec tiv ely .   Usi n g   tr im o d al   cr o s s   atten ti o n ,   wh ich   co m b in es  th im ag e   an d   m etad ata  m o d alities   at  v ar io u s   tr an s f o r m er   en c o d er   f ea tu r e   le v els.  W ith   m ea n   d iag n o s tic  ac cu r ac y   o f   7 7 . 8 5 a n d   m e an   av e r ag a cc u r ac y   o f   7 7 . 2 7 % o n   th p u b licly   ac c ess ib le  Der m 7 p t d ataset   [ 1 1 ] .   Usi n g   E f f icien tNet   m o d els  o n   th HAM 1 0 0 0 0   d ataset,   wh i ch   co n tain s   d er m o s co p y   im ag es  o f   s k in   lesi o n s ,   Ali  et  a l.   [ 1 2 ]   p r o p o s es  m u lticlas s   cla s s if icatio n   t ec h n iq u f o r   s k in   ca n ce r s .   T o   s atis f y   th n ee d s   o f   E f f icien tNet   m o d els,   th e   au th o r s   h av e   d e v elo p e d   a   p ip elin e   th at  r esizes  p h o to s ,   elim in ate s   im ag p ix els,  an d   ex p an d s   th e   d ata  s et  ( r o tatio n ,   zo o m ,   an d   h o r izo n tal/v er tical   r etu r n ) .   Pre - e n ter ed   weig h ts   o n   I m a g eNe t   wer e   u s ed   to   tr ain   th e   E f f icien tNet   m o d els,  an d   t h ey   wer s u b s eq u en tly   ad ju s ted   f o r   t h HAM 1 0 0 0 0   d ataset.   W ith   to p 1   ac c u r ac y   o f   8 7 . 9 1 % .   I n   o r d er   t o   ca teg o r ize  s k in   les io n s   as  eith er   b e n ig n   o r   m alig n an ( m elan o m a) ,   Kee r th an a   et  a l.   [ 1 3 ]   p r o p o s es  two   h y b r id   m o d els  u s in g   co n v o lu tio n al  n e u r al  n etwo r k   co u p led   with   a   s u p p o r v ec to r   m ac h i n e   ( SVM) .     T wo   h y b r id   m o d el s   ar p r o p o s ed   b y   th a u th o r s   M o b ileNet  [ 1 4 ]   a n d   d en s eNe t - 201 s   d is tin ct  f ea tu r es  ar co m b in ed   i n   th f ir s t,  wh ile  R esNet5 0   an d   Den s eNe t - 201 s   f ea tu r es  ar c o m b in ed   in   t h s ec o n d .   T h co llected   f ea tu r es  ar th en   m er g ed   an d   s en in to   an   SV class if ier   f o r   th f in al  class i f icatio n .   T h m o d e l   is   ev alu ated   u s in g   th I SB I   2 0 1 6   d ataset,   wh ich   co n s is ts   o f   9 0 0   tr ai n in g   im a g es  an d   3 7 9   t est  im ag es.   I n   o r d er   to   b alan ce   th d ataset.   An   ac c u r ac y   o f   8 7 . 4 3 was  attain ed   u s in g   th h y b r id   d e n s eNe t2 0 1   r esNet - 5 0   m o d el   with   SVM.   R ed h et  a l p r esen ts   [ 1 5 ]   h y b r id   s k in   lesi o n   s eg m en tatio n   an d   class if icatio n   s y s tem   f o r   th I SIC  2 0 1 8 .   T h m eth o d   b le n d s   h a n d cr af ted   f ea tu r es  ( v ia  Gau s s ian   m ix tu r m o d els )   with   d ee p   lear n in g   ( u s in g   a   m o d if ied   UNe ar ch itectu r e   [ 1 6 ] ) .   W ith   m ea n   o v er lap   s co r o f   0 . 7 3 5   o n   v ali d atio n   d ata,   th r esh o ld - b ase d   ap p r o ac h   ch o o s es  UNe f o r   l ar g er   lesi o n s   an d   GM Ms  f o r   s m aller   o n es  f o r   s eg m en tatio n .   T wo   C NNs  ar tr ain ed   in   a d d itio n   to   2 0 0   m a n u ally   cr ea ted   f ea tu r es  f o r   cla s s if icatio n .   T h ese  f ea tu r es  ar e   th en   co n ca ten ated   an d   p u t   in to   m u lticlas s   SVM   class if ier ,   wh ich   p r o d u ce s   c lass   av er ag ed   r ec all  o f   0 . 8 4 1 ,   ac cu r ac y   7 0 . 1 0 %.    Z h u an g   et  a l.   [ 1 7 ]   d em o n s tr ates  th ef f icac y   o f   c o n v o lu tio n al  n eu r al  n etwo r k s   in   s k in   lesi o n   an aly s is .   Alth o u g h   s o lo   C NN  class if ier s   ar ef f ec tiv e,   i h as  b ee n   d em o n s tr ated   th at  m er g in g   s ev er al   class if ier s   u s in g   f u s io n   ap p r o ac h es  im p r o v es  ac cu r ac y   an d   r o b u s tn ess .   T h ar ticle  p r ese n ts   C S - AF,  co s t - s en s itiv m u lti - clas s if ier   ac tiv f u s io n   f r am ewo r k   in ten d ed   f o r   s k in   lesi o n   class if icat io n ,   in   o r d er   to   o v e r co m e   th ese  p r o b lem s .   I n   ter m s   o f   a cc u r ac y   an d   lo wer in g   m is class if icatio n   co s ts ,   th ap p r o ac h   r o u tin ely   b ea ts   b o th   s tatic  an d   ac tiv f u s io n   tech n iq u es  wh en   test ed   o n   th I SI C   2 0 1 9   d ataset  u s in g   9 6   b ase   class if ier s   d er iv ed   f r o m   1 2   C NN  ar ch itectu r es.   A cc u r ac y   v al u ed   to   7 7 . 7 4 % d at aset I SIC   2019.   T o   ad d r ess   th is   g ap ,   we  p r o p o s n o v el  m u ltimo d al  lear n in g   f r am ewo r k   th at  s y n er g is tically   m er g es   v is u al  p atter n s   f r o m   d er m o s c o p ic  im ag es  with   s tr u ctu r ed   clin ical  d ata.   Ou r   m ain   c o n tr ib u tio n   lies   in   th e   in tr o d u ctio n   an d   co m p a r ativ ev alu atio n   o f   two   o r i g in al  an d   d is tin ct  ar ch itectu r es  d esig n e d   f o r   t h is   f u s io n an   Evaluation Warning : The document was created with Spire.PDF for Python.
                   I SS N :   2722 - 2 5 8 6   I AE S I n t J Ro b   &   Au to m Vo l .   1 5 ,   No .   1 Ma r ch   20 2 6 :   1 36 - 1 48   138   MMTN   an d   an   atten tio n - b as ed   co n v o lu tio n al  m u ltimo d al   m o d el  ( C AM M) .   T h ese  m o d els  ar d esig n e d   to   lev er ag th co m p lem en tar y   s tr en g th s   o f   im ag in g   a n d   cli n ical  d ata,   m o v in g   b ey o n d   u n im o d al  an aly s is   to   p r o v id e   m o r e   h o lis tic  an d   r o b u s d iag n o s tic  s u p p o r t.  T h is   w o r k   is   s tr ateg ically   p o s itio n ed   to   ad v an ce   th f ield   b y   d i r ec tly   co m p ar in g   th e   ef f ec tiv en ess   o f   tr an s f o r m atio n - b ased   an d   atten tio n - b ased   C NN  ar ch itectu r es  f o r   m u ltimo d al  m elan o m class if icatio n   o n   a   lar g e,   p u b licly   a v a ilab le  d ataset.       2.   M E T H O D   T h m ain   n o v elty   o f   th is   wo r k   lies   in   th p r o p o s al  o f   two   o r ig in al  h y b r id   a r ch itectu r es  ( MM T an d   C AM M)   wh ich   ef f icien tly   f u s v is u al  f ea tu r es  f r o m   d ee p   n eu r al  n etwo r k s   with   ta b u la r   clin ical  d ata   v ia   atten tio n   m ec h an is m s ,   th u s   o f f er in g   s u p er i o r   p e r f o r m an ce   f o r   m elan o m d etec tio n   o n   th I SIC 2 0 1 9   d ataset.     2 . 1 .     Da t a s et   a nd   p re pro ce s s i ng   T h I SIC  2 0 1 9   d ataset  [ 1 8 ]   was  s elec ted   f o r   th is   s tu d y   d u to   its   s ize,   clin ical  r ele v an ce ,   an d   th e   av ailab ilit y   o f   its   m etad ata,   m ak in g   it  r o b u s r ep o s ito r y   f o r   th d ev el o p m en o f   au to m ated   d iag n o s tic   s y s tem s .   T h o r i g in al  d ataset  co m p r is es  2 5 , 3 3 1   d e r m o s co p i im ag es  d is tr ib u te d   ac r o s s   eig h class es.  Fo r   o u r   b in ar y   class if icatio n   task ,   we  g r o u p ed   th ese  in to   two   ca teg o r ies:   m elan o m ( ME L ) ,   co n tai n in g   4 , 5 2 2   im ag es,   an d   n o n - m elan o m ato u s   lesi o n s ,   co n tain in g   2 0 , 8 0 9   im ag es  ( all  o th er   class e s ) .   E ac h   im ag is   a s s o ciate d   with   clin ical  m etad ata,   in clu d in g   th p atien t s   ag an d   s ex .   T o   en s u r r ig o r o u s   ev alu atio n ,   th d ataset  was  d iv id ed   in to   tr ain in g ,   v alid atio n ,   an d   test   s ets  u s in g   s tr atif ied   r an d o m   s am p lin g   m eth o d ,   p r eser v in g   th o r ig i n al  d is tr ib u tio n   o f   class es  w ith in   ea ch   s u b s et  to   m in im ize  b ias.  T h e   f in al  d is tr ib u tio n   is   as  f o ll o ws:   tr ain in g   ( 1 6 , 0 0 0   im ag es),   v alid atio n   ( 4 , 0 0 0   im ag es),   an d   test in g   ( 5 , 3 3 1   im a g es).   T h is   s tr atif icatio n   was  es s en tial  to   m an ag th in h e r en im b ala n ce   b etwe en   class es   d u r in g   th d ev elo p m en a n d   e v alu atio n   o f   th e   m o d el.   E x a m p les  o f   im ag es  a r s h o wn   in   F ig u r 1 .   T h e   d ataset  u s e d   t o   s u p p o r t   t h e   s t u d y s   c o n c l u s i o n s   i s   p u b li c l y   a c ce s s i b l e   v i a :   h t t p s : // c h a l l e n g e . i s i c - a r c h iv e . c o m / d a t a / # 2 0 1 9 .           Fig u r 1 .   B r ief   im a g es in   th is   d ataset  th at  ar ca teg o r ized   in t o   eig h t g r o u p s       Data   p r ep r o ce s s in g   in v o lv es  s ev er al  s tep s .   I m ag es  ar r esized   to   s tan d ar d   6 4 × 64 - p ix e l   s ize,   an d   th eir   p ix el  v alu es  ar th en   n o r m alize d   to   th r a n g [ 0 ,   1 ]   b y   d iv id in g   b y   2 5 5 .   Data   au g m en tatio n ,   u s in g   tech n iq u es  s u ch   as  r o tatio n ,   f l ip p in g ,   an d   zo o m i n g ,   is   ap p lied   to   im p r o v e   m o d el  g en e r aliza tio n   an d   d iv er s if y   th tr ain in g   d ata.   Fo r   clin ical  d ata,   m is s in g   v alu es  ( s u c h   as  ag e)   ar e   im p u ted   u s in g   s tatis ti ca tech n iq u es,  f o r   ex am p le,   b y   r ep lacin g   m is s in g   ag es  with   th m ed ia n   o f   t h d ataset.   C ateg o r ical  v ar iab l es,  s u ch   as  s ex ,   ar en co d ed   as  n u m er ic  v al u es.  Nu m er ic  f ea tu r es  ( s u ch   as  ag e)   ar also   n o r m alize d   to   s tan d ar d   r an g [ 0 ,   1 ]   to   s ca le  th em   to   th s am s ca le  a s   th im ag f ea tu r es.  Fo r   b in ar y   class if icatio n ,   g r o u n d   tr u th   l ab els ar co n v er ted   to   b in ar y   f o r m at:  1   f o r   m ela n o m ( ME L )   an d   0   f o r   n o n - m elan o m ( all  o th er   class es).   Fin ally ,   cu s to m   d ata   g en er ato r s   a r u s ed   to   ef f icie n tly   in teg r ate   im ag in g   a n d   cl in ical  d ata,   a n d   t o   m a n ag e   th lar g d ataset  b y   lo ad in g   a n d   p r ep r o ce s s in g   d at in   b atch es d u r in g   tr ai n in g   a n d   ev alu atio n .     I n   o r d er   to   im p r o v th e   p r ec is io n   an d   th o r o u g h n ess   o f   th d iag n o s tic  p r o ce d u r e,   th e   m u ltimo d al  tr an s f o r m er   n etwo r k   an d   c o n v o lu tio n al  atten tio n   m ec h an i s m   u s ed   in   th is   s tu d y   f o r   m elan o m d etec tio n   co m b in es  clin ical  an d   im a g in g   d ata.   Her is   th o r o u g h   b r ea k d o wn   o f   th m et h o d o lo g y :   T h m o d els  m a k e   u s o f   b o th   th co n tex t u al  p atien k n o wled g f r o m   clin ical  d ata  an d   th v is u al  cu es  f r o m   d er m o s co p i c   p ictu r es.  C o m p ar ed   to   s in g l e - m o d ality   m o d els,  th is   s y n er g is tic  ap p r o ac h   o f f er s   m o r co m p r eh en s iv e   k n o wled g o f   th e   co n d itio n   an d   in cr ea s es   d etec tio n   ac cu r ac y .     Evaluation Warning : The document was created with Spire.PDF for Python.
I AE S I n t J Ro b   &   Au to m   I SS N:   2722 - 2 5 8 6         Mu lti - mo d a l tra n s fo r mer a n d   co n vo lu tio n a l a tten tio n   a r ch it ec tu r es fo r   mela n o ma     ( Gu i d o u A min a )   139   2 . 2 .     Arc hite ct ures o f   pro po s ed  m o dels     W p r o p o s two   n ew  m u ltimo d al  ar ch itectu r es ,   MM T N   an d   C AM M,   d esig n ed   to   au to m atica lly   in teg r ate  im ag in g   an d   clin ical  d ata   f o r   m elan o m a   d etec tio n .   T h ese  two   m o d els  ac ce p t   two   s y n ch r o n ize d   in p u s tr ea m s ,   r ef lectin g   an   au to m ated   d iag n o s tic  p r o ce s s   wh er v is u al  an d   clin ical  d ata  ar p r o ce s s ed   s im u ltan eo u s ly .     2 . 2 . 1 .   M M T a rc hite ct ure   T o   im p r o v e   m elan o m d ete ctio n ,   th e   MM T m o d el   co m b in es  clin ical  d ata  an d   d e r m o s co p ic  im ag es.  I co n s is ts   o f   two   m a in   p ar ts d en s lay er s   f o r   p r o c ess in g   clin ical  d ata  an d   tr an s f o r m er - lik b l o ck   with   an   e n co d e r   f o r   im ag e   d ata.   T h is   tr a n s f o r m e r   b l o ck   is   u s ed   t o   p r o ce s s   im ag e   d ata  f o r   m elan o m a   d etec tio n ,   lev er ag in g   its   ab ilit y   to   m o d el  co m p le x   in ter ac tio n s   b etwe en   d if f er en elem en ts   with in   an   im ag e.   T h is   ap p r o ac h   is   p ar ticu lar l y   well - s u ited   b ec au s th tr an s f o r m er   [ 1 9 ] ,   in itially   d esig n e d   f o r   n atu r al  lan g u a g p r o ce s s in g   wh er e   it  ex ce ls   at   ca p tu r in g   r elatio n s h ip s   th r o u g h   s elf - atten tio n   m ec h a n is m s ,   ca n   b ap p lied   to   o th er   ty p es  o f   d ata   T h MM T m o d el  is   d esig n e d   to   p r o ce s s   two   p ar allel  d ata  s tr ea m s   as  s h o wn   in   Fig u r 2 .   T h im ag e   s tr ea m   u s es  tr a n s f o r m   en c o d er   to   ca p tu r e   lo n g - r an g d ep en d en cies  a n d   s p atial  r elat io n s h ip s   with in   t h d er m o s co p ic   im ag e.   T h is   b lo ck   em p l o y s   a   m u lti - h ea d   ( 4 - h ea d )   s elf - atten tio n   m ec h an is m ,   f o llo wed   b y   lay e r   n o r m aliza tio n   an d   f o r wa r d - p r o p a g atin g   n etwo r k ,   th u s   tr an s f o r m in g   th in p u im ag e   in to   f ea tu r e - r ic h   r ep r esen tatio n .   Simu ltan eo u s l y ,   th e   clin ical  d ata   s tr ea m   ( a g e,   s ex )   is   p r o ce s s ed   b y   s er ies  o f   d e n s n e u r al   lay er s .   T h e   r esu ltin g   f ea tu r e   v ec to r s   f r o m   t h two   m o d alit ies  ar th en   co n ca te n ated   a n d   p ass ed   to   f in al  class if icatio n   lay er .   T h is   ar ch i tectu r allo ws  th m o d el  to   au to m atica lly   co r r elate   v is u al  p atter n s   with   p atien t - s p ec if ic  r is k   f ac to r s .           Fig u r 2 .   T h ar ch itectu r o f   t h p r o p o s ed   m o d el  MM T N   Evaluation Warning : The document was created with Spire.PDF for Python.
                   I SS N :   2722 - 2 5 8 6   I AE S I n t J Ro b   &   Au to m Vo l .   1 5 ,   No .   1 Ma r ch   20 2 6 :   1 36 - 1 48   140   2 . 2 . 2 .   CAMM   a rc hite ct ure    T h C AM ar ch itectu r e   o f f e r s   lig h tweig h t   an d   h ig h - p er f o r m an ce   m o d u le,   s u itab le  f o r   au to m ated   en v ir o n m en ts   with   lim ited   r eso u r ce s   as  s h o wn   in   Fig u r 3 .   I r elies  o n   Mo b ileNetV2   n e two r k   f o r   ef f icien t   im ag f ea tu r ex tr ac tio n .   k ey   in n o v ativ asp ec o f   its   ar ch itectu r is   in s p ir ed   b y   th co n v o lu ti o n al  b lo c k   atten tio n   m o d u le   ( C B AM )   [ 2 0 ] ,   wh ic h   s eq u en tially   a p p lies   s p atial  an d   p e r - ch an n el  atten t io n   to   r ef i n f ea t u r e   m ap s ,   th u s   f o r ci n g   th m o d el  t o   au to m atica lly   f o cu s   o n   t h m o s t r elev an t v is u al  f ea tu r es f o r   m elan o m a.   T h ese   r ef in ed   i m ag f ea tu r es  ar e   th en   f u s ed   with   p r o ce s s ed   clin ical  d ata  ( ag e ,   s ex ) .   T h e   u s e   o f   ef f icien t   C NN  ar ch itectu r c o m b in e d   with   f o cu s ed   atten tio n   m ak es   C AM p r o m is in g   ca n d id ate  f o r   i n teg r atio n   in to   r ea l - tim em b ed d e d   d iag n o s tic  d e v ices  o r   telem ed icin p latf o r m s ,   wh ile  th g en er ate d   atten tio n   m ap s   o f f er ed   d eg r ee   o f   in ter p r etab ilit y   f o r   s y s tem   v alid atio n .   O u r   m e c h a n i s m   a p p l i es   t h e se   s t e p s   s e q u e n t i al l y .   i )   A t t e n ti o n   p e r   c h a n n e l :   A   G l o b a l A v e r a g eP o o l i n g 2 D   lay er   f o llo wed   b y   d e n s lay er   with   r ec tifie d   lin ea r   u n it  ( R eL U )   ac tiv atio n   f u n ctio n   a n d   f in al   d en s lay e r   with   s ig m o id   ac tiv atio n   g e n e r ates  weig h v ec to r   p er   ch a n n el.   T h is   v ec to r   is   m u ltip lie d   b y   in p u t   f ea t u r m ap s   to   ac ce n tu ate  th m o s r elev an f ea tu r ch a n n els.   ii)  Sp atial  atten tio n o n   th ch an n el - r ec alib r ate d   f ea tu r es,  we  ap p ly   2 c o n v o lu tio n s   to   cr ea te  u n iq u s p at ial  atten tio n   m ap   ( s ig m o id   ac tiv atio n ) ,   wh ich   is   th en   m u ltip lied   elem e n t b y   ele m en t to   h ig h lig h t th m o s t sp atially   s ig n if ican t r eg io n s   o f   th e   lesi o n .           Fig u r 3 .   T h ar ch itectu r o f   t h p r o p o s ed   m o d el   C AM M   Evaluation Warning : The document was created with Spire.PDF for Python.
I AE S I n t J Ro b   &   Au to m   I SS N:   2722 - 2 5 8 6         Mu lti - mo d a l tra n s fo r mer a n d   co n vo lu tio n a l a tten tio n   a r ch it ec tu r es fo r   mela n o ma     ( Gu i d o u A min a )   141   Fo r   co m p lete  r e p r o d u cib ilit y ,   we  p r o v id e   th m ain   im p lem e n tatio n   lo g ic  as in   Alg o r ith m   1 .     Alg o r ith m   1 : M MT Pip elin e   f o r   m ela n o m d etec tio n   I n p u t :   D e r m o sc o p i c   i ma g e s I ,   C l i n i c a l   d a t a   C   ( a g e ,   s e x )   O u t p u t :   P r e d i c t i o n   y _ p r e d   ( me l a n o ma   p r o b a b i l i t y )     / /   1 .   D a t a   p r e p a r a t i o n   I _ p r e p r o c e ss e d   ←  r e si z e ( I ,   6 4 × 6 4 )   /   2 5 5 . 0   C _ p r e p r o c e ss e d   ←  c o n c a t e n a t e ( [ n o r mal i z e ( a g e ) ,   o n e _ h o t ( s e x ) ] )   / /   2 .   I mag e   f e a t u r e   e x t r a c t i o n   / /   C u st o m Tr a n sf o r mer  e n c o d e r   ( 4   a t t e n t i o n   h e a d s)   i ma g e _ f e a t u r e s ←   Tr a n sf o r m e r B l o c k ( n _ h e a d s= 4 ) ( I _ p r e p r o c e sse d )   i ma g e _ f e a t u r e s ←   G l o b a l A v e r a g e P o o l i n g 1 D ( ) ( i ma g e _ f e a t u r e s)   / /   3 .   C l i n i c a l   d a t a   p r o c e ss i n g   c l i n i c a l _ b r a n c h   ←  D e n se( 6 4 ,   a c t i v a t i o n = r e l u ) ( C _ p r e p r o c e ss e d )   c l i n i c a l _ b r a n c h   ←  D r o p o u t ( 0 . 3 ) ( c l i n i c a l _ b r a n c h )   c l i n i c a l _ f e a t u r e s   ←  D e n s e ( 3 2 ,   a c t i v a t i o n = r e l u ) ( c l i n i c a l _ b r a n c h )   / /   4 .   M u l t i mo d a l   f u si o n   c o m b i n e d _ f e a t u r e s ←   c o n c a t e n a t e ( [ i mag e _ f e a t u r e s ,   c l i n i c a l _ f e a t u r e s] )   c o m b i n e d _ f e a t u r e s ←   D e n se( 1 2 8 ,   a c t i v a t i o n = r e l u ) ( c o m b i n e d _ f e a t u r e s)   c o m b i n e d _ f e a t u r e s ←   D r o p o u t ( 0 . 5 ) ( c o mb i n e d _ f e a t u r e s)   / /   5 .   C l a ss i f i c a t i o n   y _ p r e d   ←  D e n se( 1 ,   a c t i v a t i o n = si g m o i d ) ( c o m b i n e d _ f e a t u r e s)   / /   D r i v e   c o n f i g u r a t i o n   l o ss   ←  w e i g h t e d _ b i n a r y _ c r o sse n t r o p y ( w e i g h t = [ 0 . 2 ,   0 . 8 ] )   o p t i m i z e     A d a m( l e a r n i n g _ r a t e = 0 . 0 0 1 )   mo d e l . c o m p i l e ( o p t i m i z e r ,   l o ss,   me t r i c s=[ a c c u r a c y ,   A U C ( ) ] )     Alg o r ith m   2 : CAMM   Pip elin f o r   m ela n o m d etec tio n   I n p u t :   D e r m o sc o p i c   i ma g e s I ,   C l i n i c a l   d a t a   C   ( a g e ,   s e x )   O u t p u t :   P r e d i c t i o n   y _ p r e d   ( me l a n o ma   p r o b a b i l i t y )     / /   1 .   D a t a   p r e p a r a t i o n   I _ p r e p r o c e ss e d   ←  r e si z e ( I ,   2 2 4 × 2 2 4 )   /   2 5 5 . 0   C _ p r e p r o c e ss e d   ←  c o n c a t e n a t e ( [ n o r mal i z e ( a g e ) ,   o n e _ h o t ( s e x ) ] )   / /   2 .   I mag e   f e a t u r e   e x t r a c t i o n   w i t h   M o b i l e N e t V 2   i ma g e _ b a c k b o n e   ←  M o b i l e N e t V 2 ( w e i g h t = i m a g e n e t ,   i n c l u d e _ t o p = F a l se)( I _ p r e p r o c e sse d )   / /   3 .   A t t e n t i o n   m e c h a n i sm   ( i n sp i r e d   b y   C B A M )   / /   3 . 1   C h a n n e l - b a se d   a t t e n t i o n   c h a n n e l _ a v g   ←  G l o b a l A v e r a g e P o o l i n g 2 D ( ) ( i m a g e _ b a c k b o n e )   c h a n n e l _ w e i g h t ←  D e n se( u n i t s = 1 2 8 ,   a c t i v a t i o n = r e l u ) ( c h a n n e l _ a v g )   c h a n n e l _ w e i g h t ←  D e n se( u n i t s = i m a g e _ b a c k b o n e . sh a p e [ - 1 ] ,   a c t i v a t i o n = si g mo i d ) ( c h a n n e l _ w e i g h t s)   c h a n n e l _ r e f i n e d     mu l t i p l y ( [ i ma g e _ b a c k b o n e ,   c h a n n e l _ w e i g h t s] )   / /   3 . 2   S p a t i a l   a t t e n t i o n   sp a t i a l _ w e i g h t s   ←  C o n v 2 D ( f i l t e r s= 1 ,   k e r n e l _ s i z e = 7 ,   p a d d i n g = sam e ,   a c t i v a t i o n = si g m o i d ) ( c h a n n e l _ r e f i n e d )   a t t e n d e d _ f e a t u r e ←  m u l t i p l y ( [ c h a n n e l _ r e f i n e d ,   s p a t i a l _ w e i g h t s] )   / /   4 .   I mag e   f e a t u r e   a g g r e g a t i o n   i ma g e _ f e a t u r e s ←   G l o b a l A v e r a g e P o o l i n g 2 D ( ) ( a t t e n d e d _ f e a t u r e s)   / /   5 .   P r o c e ssi n g   o f   c l i n i c a l   d a t a   c l i n i c a l _ f e a t u r e s   ←  D e n s e ( 3 2 ,   a c t i v a t i o n = r e l u ) ( C _ p r e p r o c e sse d )   / /   6 .   M u l t i mo d a l   F u si o n   c o m b i n e d _ f e a t u r e s ←   c o n c a t e n a t e ( [ i mag e _ f e a t u r e s ,   c l i n i c a l _ f e a t u r e s] )   c o m b i n e d _ f e a t u r e s ←   D e n se( 6 4 ,   a c t i v a t i o n = r e l u ) ( c o mb i n e d _ f e a t u r e s)   c o m b i n e d _ f e a t u r e s ←   D r o p o u t ( 0 . 4 ) ( c o mb i n e d _ f e a t u r e s)   / /   7 .   C l a ss i f i c a t i o n   y _ p r e d   ←  D e n se( 1 ,   a c t i v a t i o n = si g m o i d ) ( c o m b i n e d _ f e a t u r e s)   / /   Tr a i n i n g   S e t u p   ( same   a M M TN   f o r   f a i r   c o m p a r i so n )   l o ss   ←  w e i g h t e d _ b i n a r y _ c r o sse n t r o p y ( w e i g h t = [ 0 . 2 ,   0 . 8 ] )   o p t i m i z e r     A d a m( l e a r n i n g _ r a t e = 0 . 0 0 1 )   mo d e l . c o m p i l e ( o p t i m i z e r ,   l o ss,   me t r i c s=[ a c c u r a c y ,   A U C ( ) ] )     2 . 3 .     T ra ini ng   a nd   i m plem en t a t io n det a ils   B o th   m o d els  wer tr ain ed   u s in g   th Ad am   o p tim izer   an d   weig h ted   b in ar y   cr o s s - en tr o p y   lo s s   f u n ctio n ,   with   class   weig h ts   in v er s ely   p r o p o r tio n al  to   t h eir   f r eq u e n cies  in   th tr ain in g   s et  to   co r r ec f o r   th e   im b alan ce   b etwe en   m elan o m a s   an d   n o n - m elan o m as.  T h M MT m o d el  was  tr ain ed   f o r   2 0   ep o ch s ,   wh ile  th C B AM   m o d el  was  tr ain ed   f o r   5 0   ep o ch s .   Hy p e r p ar am ete r s ,   in clu d in g   th lear n i n g   r ate  a n d   b atch   s ize,   wer o p tim ized   b y   ex h a u s tiv s ea r ch .   T h s ea r ch   s p ac f o r   th e   lear n in g   r ate  was  [ 0 . 1 0 . 0 1 0 . 0 0 1 ]   an d   f o r   t h b atch   s ize,   [ 1 6 3 2 6 4 ] .   T h e   o p tim al  v alu es  o b tain ed   wer a   lear n in g   r ate  o f   0 . 0 0 1   a n d   b atch   s ize  o f   3 2 .   All   ex p er im en ts   wer e   p er f o r m e d   o n   s tan d a r d   p r o ce s s o r   ( I n tel  C o r i7 ,   3 2   GB   o f   R AM )   with   Py th o n   3 . 8 ,   T en s o r Flo 2 . 8   an d   s cik it - le ar n   1 . 0 . 2 ,   with   r an d o m   s ee d s   f ix ed   to   en s u r r ep r o d u ci b ilit y .   All  ex p er im en ts   wer p er f o r m e d   o n   s tan d a r d   C PU,  d em o n s tr atin g   th e   co m p u tatio n al  f ea s ib ilit y   an d   d e p l o y m en t   p o ten tial   o f   Evaluation Warning : The document was created with Spire.PDF for Python.
                   I SS N :   2722 - 2 5 8 6   I AE S I n t J Ro b   &   Au to m Vo l .   1 5 ,   No .   1 Ma r ch   20 2 6 :   1 36 - 1 48   142   o u r   ar c h itectu r es  f o r   c o s t - ef f e ctiv au to m ated   s cr ee n in g   s etu p s ,   p ar ticu lar ly   wh en   d e d icate d   GPU  h ar d war is   u n av ailab le.     2 . 4 .     Co ns idera t io ns   re la t ing   t o   a uto m a t ed  deplo y m ent   T h p r o p o s ed   ar ch itectu r es,  p ar ticu lar ly   C AM with   its   Mo b ileNetV2   b ac k b o n e,   ex h i b it  d esig n   f ea tu r es  r elev an f o r   au to m ate d   d ep lo y m en t.  T h ei r   ab ilit y   to   s im u ltan eo u s ly   p r o ce s s   d er m o s co p ic  im ag es  an d   clin ical  m etad ata  m ee ts   th n ee d s   o f   in te g r ated   d iag n o s tic  s y s tem s .   E v alu atio n   o n   s tan d ar d   C PU  d em o n s tr ates  co m p u tatio n al   f ea s ib ilit y   f o r   r eso u r ce - c o n s tr ain ed   en v ir o n m en ts .   Fu r t h er m o r e,   t h atten tio n   m ec h an is m s   p r o v id v is u al  s alien ce   m ap s   th at   co u ld   f ac ili tate  in ter p r etatio n   in   a u to m at ed   clin ical  d ec is io n   s u p p o r t sy s tem s .       3.   RE SU L T S AN D I SCU SS I O N   T o   ev alu ate  o u r   m o d els,  we  u s ed   th f o llo win g   m etr ics   [ 2 1 ] [ 2 4 ] :   ac cu r ac y ,   wh ic h   co r r esp o n d s   t o   th p r o p o r tio n   o f   co r r ec tly   id en tifie d   s am p les  am o n g   all  s am p les  an d   p r o v id es  an   o v er all  m ea s u r o f   th e   m o d el s   ac cu r ac y ,   as  d ef in ed   in   ( 1 ) .   Pre cisi o n   is   th p r o p o r tio n   o f   co r r ec p o s itiv p r e d ictio n s   am o n g   all   p o s itiv p r ed ictio n s ,   ac co r d in g   to   ( 2 ) .   R ec all,   o r   s en s itiv ity ,   r ep r esen ts   th p r o p o r tio n   o f   co r r ec tly   id en tifie d   tr u p o s itiv es  am o n g   all  ac tu al   p o s itiv ca s es,  as  f o r m u lated   in   ( 3 ) .   Fin ally ,   th F1   s co r e,   d ef in ed   in   ( 4 ) ,   is   th e   h ar m o n ic  m ea n   o f   p r ec is io n   a n d   r ec all;  it  b alan ce s   th ese  tw o   m etr ics  an d   is   p a r ticu lar ly   u s ef u f o r   e v alu atin g   p er f o r m an ce   o n   u n b alan ce d   d atasets .     A c c ura c y=  t rue   p o sit iv e   (t p )+ t rue   n e g a t iv e s( t n ) t p + T N + f a l se   p o sit iv e s(f p )+ f a l se   n e g a t iv e s( f n )   ( 1 )     Pr e c ision=   tp t p + f p   ( 2 )     R e c a l l       = tp t p + FN   ( 3 )     F 1Score =2.  p re c isi o n   .re c a l l p re c isi o n + re c a l l   ( 4 )     T h AUC  R O C ,   wh ich   s tan d s   f o r   ar ea   u n d er   th r ec ei v er   o p er atin g   c h ar ac ter is tic  cu r v e ,   m ea s u r es  th p er f o r m an ce   o f   class if ie r   b y   co m p ar in g   t h tr u p o s itiv r ate  ( T PR )   to   th f alse  p o s itiv r ate  ( FP R )   at   d if f er en t   d ec is io n   th r esh o ld s .   Similar ly ,   th e   co n f u s io n   m a tr ix   is   ta b le  ev al u atin g   th e   p er f o r m a n ce   o f   a   class if icatio n   m o d el  b y   co m p a r in g   p r ed icted   la b els  to   ac tu al  lab els;   it  co n s is ts   o f   f o u r   elem en ts tr u p o s itiv es  ( T P),   co r r esp o n d in g   to   co r r ec tly   p r ed icted   p o s itiv ca s es;  tr u n eg ativ es  ( T N) ,   wh ich   a r co r r ec tly   id en tifie d   n eg ativ ca s es;  f alse  p o s itiv es  ( FP ) ,   r ep r esen tin g   ty p e   I   er r o r s   wh er n eg ativ e   ca s es  ar in co r r ec tly   p r ed icted   as  p o s itiv e;  an d   f alse  n eg ativ e s   ( FN) ,   wh ich   ar ty p I I   er r o r s   wh er p o s itiv ca s es  ar in co r r ec tly   p r e d icted   as n eg ativ e.     3 . 1 .     E v a lua t i o n o f   re s ults f o M M T N   B in ar y   cr o s s - en tr o p y   lo s s   an d   th Ad am   o p tim izer   [ 2 5 ]   wer e   u s ed   to   tr ain   th m o d el  o v er   2 0   ep o ch s .   T h m o d el s   p er f o r m an ce   was  ev alu ated   u s in g   th f o llo wi n g   m etr ics:   ac cu r ac y ,   p r ec is io n ,   r ec all,   F1 - s co r e ,   an d   AUC R OC .   T h ex am i n atio n   o f   th e   co n f u s io n   m atr ix   an d   AUC  cu r v r esu lts   as  s h o wn   in   Fig u r e s   4   an d   5 ,   p r esen ts   co m p ar is o n   b etwe en   o u r   MM T m o d el  an d   th f o llo win g   m o d els  ( VI T   [ 2 6 ] ,   E f f icien tNet   [ 2 7 ] Mo b ileNet) .   All  m o d els  u s th s am co n f ig u r atio n ,   as  well  as  m u ltimo d al  lear n in g co m b in in g   clin ical  d ata   an d   d er m o s co p ic  im a g es o n   th I SIC  2 0 1 9   test   d ataset.   No te:  C lass   0 . 0   co r r esp o n d s   to   n o n - m ela n o m a n d   class   1 . 0   to   m elan o m a .   Mu ltimo d al  in teg r atio n   im p r o v es  th co n tr i b u tio n   o f   clin ic al  d ata  an d   p er f o r m an ce :   as  th r is k   o f   m elan o m in cr ea s es  with   ag e,   th ag e/sex   m etad ata  lik el y   en r ich ed   th r ep r esen tatio n   o f   f ea tu r es.  T h is   ex p lain s   th h ig h e r   AUC  ( 0 . 8 5 )   co m p a r ed   to   Mo b ileNet  alo n e   ( AUC=0 . 8 2   in   T a b le   1 ) .   Atten tio n   p er   tr an s f o r m er   was  f o cu s ed   o n   ar ea s   o f   th im a g with   d iag n o s tic  s ig n if ican ce   ( ir r eg u lar   b o r d er s ,   c o lo r   v ar iab ilit y ) .   T h is   is   k ey   t o   in cr ea s in g   m elan o m r ec all  f r o m   3 8 % with   Mo b ileNet  to   5 1 %.   weig h ted   lo s s   f u n ctio n   wa s   u s ed   to   m itig ate  class   im b alan ce m elan o m ( m in o r ity   class )   was   p r io r itized   d u r in g   tr ain in g .   D esp ite  th u n b ala n ce d   d ata   ( m elan o m r e p r esen ts   ap p r o x i m ately   1 6 o f   I SIC  2 0 1 9 ) ,   th b alan ce d   F1   s co r r ea ch ed   5 3 %.  T h tr a d e - o f f   is   th at  ac cu r ac y   ( 5 5 %)  s u f f er ed   f r o m   h ig h er   r ec all   ( 5 1 %)  d u t o   an   in cr ea s e   in   f alse  p o s itiv es.  T h im p r o v em en in   v alid atio n   lo s s   r ed u ctio n   is   n o tab le:   Evaluation Warning : The document was created with Spire.PDF for Python.
I AE S I n t J Ro b   &   Au to m   I SS N:   2722 - 2 5 8 6         Mu lti - mo d a l tra n s fo r mer a n d   co n vo lu tio n a l a tten tio n   a r ch it ec tu r es fo r   mela n o ma     ( Gu i d o u A min a )   143   v alid atio n   lo s s   d ec r ea s ed   f r o m   0 . 3 4 3   ( in itial)  t o   0 . 3 1 7   ( f in al)   af ter   f in e - tu n in g ,   in d icatin g   in cr ea s ed   g en er alize d   ca p ab ilit y   f o r   test in g   d ata  with   8 5 % a cc u r ac y .   T h MM T m o d el  s u r p ass es  o th er   m o d els  th an k s   to   its   ex ce p tio n al  o v er all  p er f o r m a n ce   i n   ac cu r ac y   an d   AUC,  ac h iev in g   th h ig h est  AUC  ( 0 . 8 5 ) ,   d em o n s tr atin g   s tr o n g   class   s ep ar ab ilit y ,   an d   an   ac c u r ac y   o f   8 7 . 3 7 %,  r ep r esen tin g   th m o s p r ec is p r ed ictio n .   I ts   ad v an tag lies   in   its   s u p er io r   ab ilit y   to   b alan c e   s en s itiv ity   an d   s p ec if icity   co m p ar ed   to   its   r iv als.  I s h o ws  s ig n if ican im p r o v e m en i n   r ec all  f o r   C lass   1   ( m elan o m a)   at  5 1 %,  n ea r l y   1 3 h ig h er   th a n   Mo b ileNet s   3 8 %,  th u s   in cr ea s in g   th n u m b er   o f   tr u p o s itiv es,   wh ich   is   cr u cial  in   m ed ical  d iag n o s is   wh er d iag n o s tic  f ailu r ca n   h av s er io u s   co n s eq u en ce s .   I also   ac h iev es  th h i g h est  b alan ce d   F1   s co r f o r   C lass   1 . 0   ( 5 3 v s .   4 7 f o r   Mo b ileNet) ,   in d ica tin g   b etter   tr ad e - o f f   b etwe en   p r ec is io n   an d   r e ca ll  an d   av o id in g   an   o v e r - r el ian ce   o n   p r ec is io n   th at  wo u l d   p r io r itize  lo w   n u m b er   o f   f alse p o s itiv es a th ex p en s o f   tr u p o s itiv es.  C o m p ar ed   to   th r ef e r en ce   m o d els E f f icien tNet  an d   ViT ,   wh ich   ex h ib it  ca tast r o p h ic  f ailu r f o r   class   1 . 0   ( r ec all    2 4 %),   th MM T p r o v es  to   b s ig n if ican tly   m o r r o b u s t.  Fo r   c r itical  ca s es ,   it p r io r itizes r ec all  o v e r   ac cu r ac y   to   o p tim ize  p r ac tical  clin i ca l v alu e.   I n   co n clu s io n ,   th m o d el  co m b in es  atten tio n - by - t r an s f o r m i n g   lesi o n - f o cu s in g   with   th ef f icien cy   o f   Mo b ileNet.   Ag e - r elate d   r is k   i s   an   ex am p le  o f   h o clin ical  d ata  b r id g es  th e   g ap s   in   im a g e - o n ly   m o d els.  T h e   d ataset  im b alan ce   ( m elan o m a   r ar ity )   was  c o m p en s ated   f o r   b y   class   weig h tin g   in   th e   lo s s   f u n ctio n   d esig n .   Ou r   MM T m o d el  ac h iev es  clin i ca lly   s ig n if ican p er f o r m an ce   ( AUC=0 . 8 5 )   b y   e f f ec tiv ely   le v er ag in g   atte n tio n - by - tr an s f o r m in g   an d   m u ltimo d al  lear n in g   ( im a g es  clin ic al  d ata) .   T h em p h asis   o n   r e ca ll  alig n s   with   th e   v ital  g o al   o f   ea r ly   m elan o m a   d etec tio n ,   alth o u g h   ac c u r ac y   f o r   m ela n o m a   n ee d s   im p r o v e m en t.  T h is   co n f ir m s   o u r   ass er tio n   th at  m u ltimo d al  ar ch itectu r es o u tp er f o r m   s in g l e - m o d ality   tech n i q u es in   ar tific ial  in tellig en ce   f o r   d er m ato lo g y .   T o   p r o v id a   co m p ar ativ m e asu r o f   r o b u s tn ess ,   th MM T m o d el  was  tr ain ed   an d   ev al u ated   th r e e   tim es  with   d if f er en r an d o m   s ee d s .   T h p er f o r m an ce   m et r ics  r ep o r ted   r ep r esen th m ea n   v alu es  ac r o s s   th ese  r u n s .   T h m o d el  ac h iev ed   an   av er ag AUC  o f   0 . 8 5   ±   0 . 0 1 5   an d   an   av er a g test   ac cu r ac y   o f   8 7 . 3 7 ±   0 . 3 %,   in d icatin g   s tab le  p er f o r m a n ce .             Fig u r 4 .   C o n f u s io n   m atr i x   f o r   MM T N     Fig u r 5 .   AUC cu r v e   f o r   MM T N       T ab le  1 An aly s is   o f   p er f o r m a n ce   m etr ics f o r   d if f er e n t m o d e ls   M o d e l   AUC   ( t e s t )   A c c u r a c y   ( t e st )   P r e c i s i o n   F 1 sc o r e   R e c a l l         0 . 0   1 . 0   0 . 0   1 . 0   0 . 0   1 . 0   V i t   63   81   84   24   91   10   90   10   Ef f i c i e n t N e t   62   82   84   10   91   10   90   10   M o b i l e N e t   82   85   89   62   92   47   92   38   M M TN   8 5 ±   0 . 0 1 5   8 7 . 3 7 ±   0 . 3 %   91   55   93   53   92   51   C A M M   0 . 8 7   ±   0 . 0 2   80   82   76   86   67   91   59       3 . 2 .     E v a lua t i o n o f   re s ults f o CAM M   T h m o d el  d em o n s tr ates  ex ce p tio n al  p e r f o r m an ce   in   id en tif y in g   n o n - m elan o m lesi o n s ,   a ch iev in g   a   h ig h   r ec all  ( 0 . 9 1 )   a n d   b ala n c ed   F1   s co r ( 0 . 8 6 ) .   T h is   tr a n s lates  to   l o f alse - n e g ativ r at f o r   b e n ig n   ca s es,  en s u r in g   th at  m o s h a r m less   lesi o n s   ar co r r ec tly   r u le d   o u t,   wh ich   is   ef f ec tiv e   f o r   s cr ee n i n g .   Fo r   th cr itical  Evaluation Warning : The document was created with Spire.PDF for Python.
                   I SS N :   2722 - 2 5 8 6   I AE S I n t J Ro b   &   Au to m Vo l .   1 5 ,   No .   1 Ma r ch   20 2 6 :   1 36 - 1 48   144   m elan o m class ,   th m o d el   ex h ib its   h ig h   ac c u r ac y   ( 0 . 7 6 )   b u m o d er ate   r ec all  ( 0 . 5 9 ) .   T h is   in d icate s   th at  wh en   C AM p r ed icts   m elan o m a,   it  is   co r r ec t   7 6 %   o f   th e   tim e,   th u s   m in im izin g   u n n ec ess ar y   b io p s ies  ( f alse   p o s itiv es).   Ho wev er ,   its   s en s itiv ity   o f   5 9 m ea n s   t h at  4 1 o f   tr u e   m elan o m as  ar e   m is s ed   ( f alse  n eg ativ es),   r ep r esen tin g   th m ain   lim itatio n   f o r   f u lly   s tan d alo n d iag n o s is .   T h d is tr ib u tio n   o f   co r r ec an d   in c o r r ec t   p r ed ictio n s   ac r o s s   b o th   class es  ca n   b o b s er v ed   i n   th c o n f u s io n   m atr ix   s h o wn   in   Fig u r 6 ,   wh ich   h ig h lig h ts   th r elativ ely   h ig h er   n u m b e r   o f   m is s ed   m elan o m a   ca s es  co m p ar ed   t o   m is class if ied   n o n - m elan o m s am p les   T h is   p er f o r m a n ce   p r o f ile  is   in ten tio n al.   W ith   an   o v er all  AUC  0 . 8 7 ,   th m o d el s   d is cr im in ato r y   p o wer   f alls   with in   th r an g o f   r ec en s tate - of - th e - ar m o d els  ( AUC   ~0 . 8 5 0 . 9 1 )   o n   th I SIC  d ataset.   Fu r th er m o r e,   ac h iev in g   9 5 o f   t h p er f o r m an ce   o f   lar g er   m o d els  lik e   E f f icien tNet  with   th r ee   tim e s   f ewe r   p ar am eter s   ( u s in g   Mo b ileNetV2 )   u n d er s co r es  its   ef f ec tiv en ess .   T h h ig h   r ec all  f o r   th n o n - m ela n o m class   ( 0 . 9 1 )   en ab les  ef f icien tr iag b y   r eli ab ly   f ilter in g   o u b en i g n   ca s es.  W h ile  th m o d er ate  r ec all  f o r   m elan o m lim its   its   u s as  s tan d alo n d iag n o s tic  to o l,   it  r em ai n s   v alu a b le  as  a   clin ical  d ec is io n   s u p p o r t   s y s tem .   T h e   g en er ated   atte n tio n   m a p s   as  s h o wn   in   Fig u r 7   p r o v i d in t er p r etab ilit y ,   allo win g   clin ici an s   to   v is u alize   th e   m o d el s   f o c u s   ar ea s   an d   ef f ec t iv ely   in teg r ate  its   r esu lts   in to   t h eir   ex p e r tis e.           Fig u r 6 .   Ma tr ix   co n f u s io n   f o r   C AM M             Fig u r 7 .   Atten tio n   m ap   v is u aliza tio n   f o r   m elan o m d etec tio n       T o   en s u r th s tatis tical   r o b u s tn ess   o f   o u r   r esu lts   an d   to   ac co u n f o r   tr ain i n g   v ar iab ilit y ,   t h C AM M   m o d el  was  tr ain ed   an d   ev alu at ed   f iv tim es  with   d if f er en r an d o m   s ee d s .   Per f o r m a n ce   is   p r esen ted   as  m ea n   ±   s tan d ar d   d ev iatio n   as  p r esen ted   in   T ab le   2 .   T h e   m o d el  ac h i ev ed   a   m ea n   AUC  o f   0 . 8 7   ±   0 . 0 2 ,   d em o n s tr atin g   co n s is ten d is cr im in atio n   ca p ab ilit y   ( ex h ib itin g   g r ea ter   co n s is ten cy   co m p ar ed   to   th M MT m o d el ) .   T h ese  co n f id en ce   in ter v als  in d icate   s tab le  p er f o r m an ce   d esp ite  th e   in h er en r an d o m n ess   o f   weig h in itializatio n   an d   d ata  s h u f f lin g   d u r in g   tr ain i n g .     Evaluation Warning : The document was created with Spire.PDF for Python.
I AE S I n t J Ro b   &   Au to m   I SS N:   2722 - 2 5 8 6         Mu lti - mo d a l tra n s fo r mer a n d   co n vo lu tio n a l a tten tio n   a r ch it ec tu r es fo r   mela n o ma     ( Gu i d o u A min a )   145   T ab le  2 .   An aly s is   o f   p er f o r m a n ce   m etr ics f o r   C AM M     P r e c i s i o n   R e c a l l   F1 - sc o r e   S u p p o r t   N o n - M e l a n o m a   0 . 8 2   0 . 9 1   0 . 8 6   1 3 5 7   M e l a n o m a   0 . 7 6   0 . 5 9   0 . 6 7   6 7 8       T h atten tio n   m ap   v is u aliza tio n   [ 2 8 ]   p r esen ts   two   elem en ts .   T h lef p an el  s h o ws  th o r i g in al  in p u t   im ag o f   th e   s k in   lesi o n .   T h e   r ig h p a n el  o v e r lay s   an   atten t io n   m ap   i n   th f o r m   o f   c o lo r - co d e d   h ea m a p ,   wh ich   in d icate s   th m o d el s   f o cu s   ar ea s .   R ed ,   o r an g e,   a n d   y ello s ig n al   h ig h   atten tio n .   B lu an d   p u r p le   in d icate   r eg io n s   to   wh ich   th m o d el  p aid   litt le  atten tio n .   Gr ee n   co r r esp o n d s   to   m o d e r ate  lev el  o f   f o cu s .     3 . 3 .     Dis cus s io n o n t he  inte g ra t io n o f   a uto ma t ed  dia g no s t i cs   T h p er f o r m an ce   d em o n s tr ated   b y   o u r   m u ltimo d al  ar c h itectu r es,  co m b in e d   with   th eir   co m p u tatio n a l   ef f icien cy ,   s u g g ests   th eir   p o t en tial  u tili ty   in   au to m ated   d iag n o s tic  s y s tem s .   I n   s u ch   co n tex t,  o u r   m o d els  co u ld   b in teg r ated   in to   clin ic al  wo r k f lo ws  wh e r d er m o s co p ic  im ag ac q u is itio n   an d   p ati en d ata  co llectio n   ar au to m ated .   Fo r   e x am p le,   i n   teled er m ato lo g y   o r   m o b ile  s cr ee n in g   s ce n ar io s ,   an   o p er at o r   co u ld   ca p t u r an   im ag an d   in p u b asic  clin ical  m etad ata  to   o b tain   an   au t o m ated   p r elim in ar y   ass ess m e n t.  T h m u ltimo d al   n atu r o f   o u r   m o d els,  p r o ce s s in g   b o th   v is u al  a n d   co n te x tu al  in f o r m atio n ,   is   well - s u ited   to   th ese  ap p licatio n s .   Fu r th er m o r e ,   th g e n er ated   att en tio n   m ap s   o f f er   d eg r ee   o f   in ter p r etab ilit y ,   wh ich   c o u ld   e n h an ce   co n f id e n ce   i n   a u t o m a t e d   s y s t e m s .   T h es e   p r o s p e c ts   w o u l d   r e q u i r e   f u r t h e r   v a l i d a t i o n   w o r k   a n d   s p ec i f i c   t e ch n i c a l   i n t e g r a ti o n .     3 . 4 .     Co m pa riso n wit h e x is t ing   m ultim o da a pp ro a ches o n t he  I SI da t a s et   T ab le  3   c o m p a r es  o u r   wo r k   with   r ec en t   s tate - of - th e - a r m u ltimo d al  m et h o d s   o n   th e   I SIC  2 0 1 9   d ataset.   T h an aly s is   r ev ea ls   th at  o u r   two   p r o p o s ed   ar ch itec tu r es,  MM T an d   C AM M,   ac h iev co m p etitiv e   p er f o r m an ce   wh ile  in tr o d u ci n g   in n o v ativ co n tr ib u tio n s .   MM T ac h iev es  th h ig h est  ac cu r ac y   ( 8 7 . 3 7 %),   s u r p ass in g   u n im o d al  m et h o d s   s u ch   as   Du alAu to E L an d   C S - AF.  T h is   v alid ates th s ig n if ican t c o n tr ib u tio n   o f   m e r g in g   clin ical  d ata  ( ag e,   s ex )   with   v is u al  ch ar ac ter is tics   v ia  T r an s f o r m er - lik ar c h itectu r e.   C AM M,   alth o u g h   with   s lig h t ly   lo wer   ac cu r ac y   ( 8 0 . 3 %),   s tan d s   o u f o r   its   ef f i cien cy   an d   in te r p r etab ilit y .   I ts   lig h tweig h a r ch itectu r e   b ase d   o n   Mo b ileNetV2   an d   its   atten tio n   m ec h an is m   ( C B AM )   m ak it  p ar ticu lar ly   well - s u ited   f o r   em b ed d e d   d e p lo y m en t,  o f f er i n g   an   o p tim al  b alan ce   b etwe en   p er f o r m an ce ,   t r an s p ar en c y ,   an d   co m p u tatio n al  ef f icien cy .   Un lik p r e v io u s   wo r k   th at  f o cu s ed   m ain ly   o n   u n im o d a im p r o v em en t   o r   co m p lex   f u s io n   o f   class if ier s ,   o u r   ap p r o ac h es  d e m o n s tr ate  th at  s tr u ctu r ed   an d   tar g eted   m u ltimo d al  f u s io n     wh eth er   b ased   o n   tr an s f o r m atio n al   atten tio n   ( MM T N)   o r   co n v o l u tio n al  at ten tio n   ( C AM M)     is   p r o m is in g   av en u f o r   im p r o v in g   b o th   th ac c u r ac y   a n d   clin ical  u tili ty   o f   au to m ate d   m elan o m a   d iag n o s tic  s y s te m s .       T ab le  3 .   C o m p a r is o n   with   ex i s tin g   m u ltimo d al  ap p r o ac h es o n   th I SIC d ataset   M e t h o d   M a i n   a r c h i t e c t u r e   M o d a l i t i e s Us e d   A c c u r a c y   ( Te st )   M a i n   c o n t r i b u t i o n   D u a l A u t o E LM   [ 1 0 ]   D u a l   a u t o - e n c o d e r s (F F +   sp a t i a l )   D e r mo sc o p i c   i ma g e   o n l y   8 6 . 6 8 %   U se  o f   F o u r i e r   t r a n sf o r m   f o r   t e x t u r e   a n a l y si s .   CS - A F   ( A c t i v e   F u si o n )   [ 1 7 ]   En se mb l e   o f   1 2   C N N   mo d e l s   ( a c t i v e   f u s i o n )   D e r mo sc o p i c   i ma g e   o n l y   7 7 . 7 4 %   A d a p t i v e   c o s t   m u l t i - c l a ss i f i e r   f u s i o n   f r a mew o r k (   I S I C 2 0 1 9 ) .   M M TN   ( O u r   w o r k )   M u l t i m o d a l   t r a n sf o r m e r   ( En c o d e r   +   C l i n i c a l   D a t a )   I mag e   +   A g e   +   S e x   8 7 . 3 7 %   F i r st   u se   o f   a   t r a n sf o r mer - l i k e   e n c o d e r   f o r   i ma g e / c l i n i c a l   d a t a   f u si o n   o n   I S I C 2 0 1 9 .   C A M M   ( O u r   w o r k )   M o b i l e N e t V 2   C N N   +   A t t e n t i o n   ( C B A M )   +   C l i n i c a l   D a t a   I mag e   +   A g e   +   S e x   8 0 . 3 %   Li g h t w e i g h t   a r c h i t e c t u r e   w i t h   i n t e r p r e t a b l e   a t t e n t i o n   ma p s,  s u i t a b l e   f o r   e mb e d d e d   d e p l o y me n t .       3 . 5 .     Abla t io n study   o n t he  c o ntr ibu t io n o f   clinica d a t a   T h is   s tu d y   p r esen ts   th r esu lts   o f   an   ex p er im e n in   wh ich   th MM T an d   C AM m o d els  wer e   r etr ain ed   with o u clin ical  d ata  ( im ag es   o n ly ) .   T h r esu lts   as  p r esen ted   in   T ab le  4   s h o s ig n if ican d ec r ea s e   in   AUC ( e. g . ,   - 0 . 0 4   f o r   C AM M) ,   q u an titativ ely   c o n f ir m in g   th u s ef u ln ess   o f   m u ltimo d al  f u s io n .       T ab le  4 .   R esu lts   o f   th ab latio n   s tu d y   M o d e l   C o n f i g u r a t i o n   ( M o d a l i t i e s)   A U C   ( Te s t )   Δ A U C   R e c a l l   ( M e l a n o m a )   P r e c i s i o n   ( M e l a n o m a )   M M TN   I mag e   +   C l i n i c a l   D a t a   0 . 8 5   + 0 . 0   0 . 5 1   0 . 5 5   M M TN   I mag e   o n l y   0 . 8 1   - 0 . 0 4   0 . 4 2   0 . 5 8   C A M M   I mag e   +   C l i n i c a l   D a t a   0 . 8 7   + 0 . 0   0 . 5 9   0 . 7 6   C A M M   I mag e   o n l y   0 . 8 3   - 0 . 0 4   0 . 5 4   0 . 7 1   Evaluation Warning : The document was created with Spire.PDF for Python.