I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m pu t er   Science   Vo l.   41 ,   No .   3 Ma r ch   20 2 6 ,   p p .   95 4 ~ 96 5   I SS N:  2 502 - 4 7 52 ,   DOI : 1 0 . 1 1 5 9 1 /ijee cs .v 41 . i 3 . pp 954 - 9 6 5           954       J o ur na l ho m ep a g e h ttp : //ij ee cs . ia esco r e. co m   A hybrid a pp ro a ch f o r meas uring  s ema ntic  sim ila rit y  in  lex ica lly  iden tical  but  a mbig uo us se ntences         B t is s a m   E l J a na t i 1 ,   Adil E na a na i 2 ,   F a do ua   G ha nim i 1   1 D e p a r t me n t   o f   P h y si c s E n g i n e e r i n g ,   F a c u l t y   o f   S c i e n c e ,   I b n   T o f a i l   U n i v e r si t y ,   K e n i t r a ,   M o r o c c o   2 D e p a r t me n t   o f   i n f o r m a t i c ,   A b d e l ma l e k   S a a d i   U n i v e r si t y ,   t o u a n ,   M o r o c c o       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Oct  1 9 ,   2 0 2 5   R ev is ed   Dec   5 ,   2 0 2 5   Acc ep ted   Dec   1 3 ,   2 0 2 5       Th is  stu d y   a d d re ss e th e   c rit ica c h a ll e n g e   o se m a n ti c   sim il a rit y   a n d   lex ica l   d isa m b ig u a t io n   in   n a tu ra lan g u a g e   p ro c e ss in g ,   fo c u sin g   o n   se n te n c e with   stru c tu ra a n d   lex ica l   a m b ig u it ies .   We  i n tr o d u c e   a n   in n o v a ti v e   h y b r id   a p p ro a c h   t h a sy n e rg isti c a ll y   c o m b in e sy m b o li c   a n d   n e u ra m e th o d t o   b e tt e a li g n   with   h u m a n   j u d g m e n t.   Ou m e th o d o lo g y   d y n a m ica ll y   in teg ra tes   fu z z y   Ja c c a rd lex ica p re c isi o n   wit h   S BERT   e m b e d d in g s   c o n tex t u a l   se n siti v it y ,   e n a b li n g   a d a p ti v e   se m a n ti c   a m b ig u i ty   re so lu ti o n .   E x p e rime n tal  e v a lu a ti o n   o n   3 3   a m b ig u o u s e n ten c e d e m o n stra tes   th a t   o u r   a p p r o a c h   sig n ifi c a n t ly   o u t p e rfo rm c o n v e n ti o n a a rti ficia in telli g e n c e   (AI)   sy ste m s,  a c h iev in g   a n   1 1 . 7 %   re d u c ti o n   in   m e a n   a b so lu te  e rro c o m p a re d   t o   re fe re n c e   m o d e ls,  wit h   sta ti stica a n a ly sis  c o n firmin g   r o b u st  re su lt s   (d   =   - 0 . 8 0 ,   p   0 . 0 0 1 ) .   T h is  re p re se n ts  a   6 5 %   im p ro v e m e n in   h u m a n   e v a l u a ti o n   a li g n m e n t   o v e e x isti n g   m e th o d s.  O u r   re se a rc h   c o n tri b u tes   t o   a d v a n c i n g   t h e   field   b y   sh o win g   t h a a rc h i tec tu ra i n telli g e n c e   c a n   su r p a ss   m e re   p a ra m e ter  sc a li n g ,   o ffe rin g   a n   e ffe c ti v e   so l u ti o n   f o r   a p p li c a ti o n re q u iri n g   b o t h   p re c isio n   a n d   in terp re tab il it y ,   wit h   p ro m isi n g   d irec ti o n s   fo r   m u lt il in g u a l   e x te n sio n   a n d   e x p lain a b le AI  in te g ra ti o n .   K ey w o r d s :   Fre n ch   NL P   L in g u is tic  f ea tu r es   Sen ten ce   s im ilar ity   NL P   T ex tu al  s em an tic  s im ilar ity   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   B tis s am   E l Jan ati   Dep ar tm en t o f   P h y s ics,  Facu lty   o f   Scien ce ,   I b n   T o f ail  Un iv e r s ity   K en itra ,   Mo r r o c o   E m ail: Bt is s am . eljan ati@ u it.a c. m a       1.   I NT RO D UCT I O N   Natu r al  lan g u a g p r o ce s s in g   ( NL P)  en ab les  m ac h in es  to   i n ter p r et  a n d   g en e r ate  h u m an   lan g u a g e,   f o r m in g   th f o u n d atio n   o f   ap p licatio n s   s u ch   as  s ea r ch   en g in es,  m ac h in tr an s latio n ,   a n d   d ialo g u s y s tem s .   Am o n g   its   co r ch allen g es,  s em an tic  tex tu al  s im ilar ity   ( S T S)  aim s   to   q u an tify   h o clo s ely   two   s en ten ce s   co n v ey   th e   s am m ea n in g .   W h ile  s ig n if ican p r o g r ess   h as  b ee n   m ad e   in   E n g lis h   N L P,  Fre n ch   lan g u ag e   p r o ce s s in g   f ac es  u n iq u c h a llen g es  d u to   its   r ich   m o r p h o lo g y ,   g r a m m atica co m p l ex ity ,   an d   lim ited   an n o tated   r eso u r ce s .   E x is tin g   ap p r o ac h es  f o r   Fre n ch   s em an tic  s im ilar ity   r ev ea l   cr itical  lim itatio n s .   Neu r al  m o d els  lik C am em B E R T   an d   Flau B E R T ,   wh ile  ef f ec tiv f o r   g en er al   task s ,   o f ten   s tr u g g le  with   f in e - g r ain ed   s em an tic   d is tin ctio n s   an d   lac k   in ter p r e tab ilit y .   Sy m b o lic   m eth o d s   o f f er   tr a n s p ar en c y   b u f ail  t o   ca p tu r c o n tex tu al   n u an ce s .   Mo s n o tab ly ,   c u r r en h y b r i d   ap p r o ac h es  f o r   Fre n ch   eith er   r ely   o n   s tatic  co m b in atio n s   o f   co m p o n en ts   o r   f ail  to   p r o v id ad ap tiv d i s am b ig u atio n   m ec h an is m s ,   p ar ticu lar ly   f o r   lex ically   id en tical  b u t   s em an tically   d iv er g en s en te n ce s .   T h is   r esear c h   g a p   is   e s p ec ially   p r o n o u n ce d   in   Fre n ch ,   w h er e x is tin g   m eth o d s   ca n n o t a d eq u ately   h a n d le  th lan g u ag e s   c o m p lex   a g r ee m en t r u les an d   co n tex tu al  d ep en d e n cies.       Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52       A   h yb r id   a p p r o a ch   fo r   mea s u r in g   s ema n tic  s imila r ity  in   lexi ca lly  id en tica   ( B tis s a E l J a n a ti )   955   T h is   s tu d y   ad d r ess es th ese  lim itatio n s   th r o u g h   th r ee   p r im ar y   o b jectiv es:   a.   Dev elo p   d y n am ic  h y b r id   f r a m ewo r k   th at  ad ap tiv ely   in teg r ates  s y m b o lic  an d   n eu r al  m et h o d s   f o r   Fre n c h   s em an tic  s im ilar ity .   b.   C r ea te  an   in ter p r etab le  d is am b ig u atio n   s y s tem   th at  m ain tain s   co n tex tu al  s en s itiv ity   wh ile  p r o v id in g   tr an s p ar en t d ec is io n - m ak in g .   c.   E s tab lis h   r o b u s ev alu atio n   m eth o d o lo g y   th at   ac cu r ately   m ea s u r es  alig n m e n with   h u m an   s em an tic   ju d g m en ts .   T h is   wo r k   m ak es th r ee   s ig n if i ca n t c o n tr ib u tio n s   to   Fre n c h   N L P:     An   ad ap tiv h y b r i d   ar ch itectu r th at  s u r p ass es th lim itatio n s   o f   s tatic  co m b in atio n   ap p r o ac h es .     Dem o n s tr ated   ef f ec tiv e n ess   o n   co m p le x   Fre n ch   a m b ig u ities   wh er cu r r en t m eth o d s   f ail .     v alid atio n   f r a m ewo r k   s h o win g   1 1 . 7 m ea n   a b s o lu te  er r o r   ( MA E )   r ed u ctio n   an d   6 5 % b et ter   h u m an   alig n m en t c o m p ar ed   t o   s tate - of - th e - ar t sy s tem s .   T h r em ain d er   o f   th is   p ap er   is   o r g an ized   as  f o ll o ws:   s ec tio n   2   r e v iews  r elate d   wo r k ,   s ec tio n   3   d etails   o u r   m eth o d o lo g y ,   s ec tio n   4   p r esen ts   ex p er im en tal  v alid at io n ,   s ec tio n   5   d is cu s s es  f in d in g s ,   an d   s ec tio n   6   co n clu d es with   f u tu r d i r ec tio n s .       2.   RE L AT E WO RK   R esear ch   o n   s em an tic  s im ilar i ty   an d   wo r d   s en s d is am b ig u a tio n   ( W SD)   h as  ev o lv ed   f r o m   s y m b o lic  an d   r u le - b ased   s y s tem s   to   v ec to r - b ased   m o d els  an d   f i n ally   to   d ee p   n eu r al  a n d   m u ltimo d al  ar ch itectu r es .     E ac h   p ar ad ig m   a d d r ess es  s em an tic  r ep r esen tatio n   f r o m   d if f er en th eo r etica an d   co m p u ta tio n al  p er s p ec tiv es,  p ar ticu lar ly   f o r   Fre n c h ,   wh e r m o r p h o lo g ical  r ich n ess   a n d   p o ly s em y   m ak e   d is am b i g u atio n   esp ec ially   ch allen g in g .     2 . 1 .     Cla s s ica l a pp ro a ches   E ar ly   m eth o d s   f o r   s em an tic   s im ilar ity   r elied   o n   s y m b o lic  an d   r u le - b ased   f r am ewo r k s   s u ch   a s   W o r d Net,   wh ich   m o d eled   s y n tactic  an d   s em an tic  r elatio n s   th r o u g h   lo g ical  in f er e n ce .   T h ese  s y s tem s   wer e   h ig h ly   i n ter p r eta b le  b u f ac e d   m ajo r   ch allen g es:  m an u al   r u le  d ep en d en ce ,   p o o r   s ca l ab ilit y ,   an d   lim ited   lin g u is tic  ad ap tab ilit y   [ 1 ] .   I n   Ar ab ic  NL P,  f o r   e x am p l e,   E n aa n ai  et  a l.   [ 2 ]   p r o p o s ed   m o r p h o s em an tic  f ilter i n g   m eth o d   ad d r ess in g   am b ig u ity   ca u s ed   b y   a g g lu tin atio n   an d   lac k   o f   v o ca lizatio n .   T h eir   s y s tem   ex p a n d ed   wo r d s   in to   all  p o s s ib le  v o ca lized   f o r m s   a n d   d is am b ig u ated   m ea n in g s   u s in g   co n te x tu al  r u les,  u s er   p r o f i le,   an d   th s em an tic  lex ico n   AR R AM OUZ   AL W A SEE T ,   with   a   J ac ca r d - b ased   s im ilar ity   f u n ctio n   t o   en h an ce   alig n m en t.  T h o u g h   ef f ec tiv e,   th is   ap p r o ac h   r em ai n ed   co n s tr ain ed   b y   r u le  c o m p l ex ity   an d   lim ited   p o r ta b ilit y   to   o th er   lan g u ag es.   Su b s eq u en v ec t o r - b ased   m o d els,  in clu d in g   b a g - of - wo r d s   ( B o W )   an d   T F - I DF  [ 1 ] ,   p r o v id ed   q u an titativ tex t   r ep r esen tati o n s   b u t   ig n o r ed   s em an tic  r e latio n s h ip s .   W o r d   em b ed d i n g   m o d els  im p r o v ed   lex ical  g en er aliza tio n   Fas tTe x [ 3 ] ,   [ 4 ]   in tr o d u ce d   s u b w o r d   in f o r m atio n ,   wh ile  W o r d 2 Vec   [ 5 ]   an d   Glo Ve  [ 6 ca p tu r ed   co - o cc u r r en ce   p atter n s .   Ho wev er ,   th ese  m o d els  wer co n tex t - in s en s itiv an d   s tr u g g led   with   p o ly s em y .   L ater   p r o b a b ilis tic  em b ed d in g s ,   s u ch   as  Ar o r et   a l.   [ 7 ] ,   e n h an ce d   g l o b al  s tr u c tu r b u t   s till   r elied   o n   s im p lify in g   Gau s s ian   ass u m p tio n s .   T h ese  lim itatio n s   m o tiv ated   t h em er g e n ce   o f   co n tex tu ali ze d   tr an s f o r m er - b ased   m o d el s   s u ch   as  B E R T   [ 8 ] ,   wh ich   in tr o d u ce d   d y n am ic  em b ed d in g s   s en s itiv to   s u r r o u n d in g   wo r d s ,   i m p r o v i n g   s em an tic  co h er en ce   b u t r aisi n g   is s u es o f   co m p u tatio n al  co s t a n d   in te r p r etab ilit y .     2 . 2   P re t ra ined la ng ua g m o dels   Pre tr ain ed   lan g u ag m o d els  ( P L Ms)   b ased   o n   t h t r an s f o r m e r   ar ch itectu r h av t r an s f o r m e d   NL b y   en ab lin g   c o n tex t - awa r a n d   m u ltil in g u al  r ep r esen tatio n s .   Fo r   Fre n ch ,   n o tab le  m o d els  in clu d C am em B E R T   [ 6 ] ,   R o B E R T a - b ased   m o d el  tr ain ed   o n   OSC AR   an d   Fre n ch   W ik ip ed ia;  Flau B E R T   [ 1 ] ,   a   lar g 1 2 24 - lay er   m o d el  with   r ich   le x ical  co v er ag e;  B E R T wee tFR   [ 9 ] - [ 1 2 ] ,   s p ec ialized   f o r   T witter an d   m B E R T   [ 8 m u ltil in g u al  m o d el  less   o p tim ized   f o r   Fre n ch   s y n tax   an d   m o r p h o lo g y .   Sem an tic  s im ilar ity   is   u s u ally   co m p u ted   f r o m   th [ C L S]  to k en   o r   m ea n - p o o led   em b ed d in g s   u s in g   co s in s im ilar ity .   T o   b etter   ca p tu r e   s en ten ce - lev el  m ea n in g ,   Sen t en ce - B E R T   ( SB E R T )   in tr o d u ce d   Siam ese  ar ch itectu r e,   later   ad ap ted   f o r   Fre n ch   in   C am em B E R T - Sen ten ce   an d   L aBS E   [ 13 ] .   B en ch m ar k s   s u ch   as  STS - FR   p r o v id e v alu atio n   d atasets ,   th o u g h   th ey   ar lim it ed   i n   d o m ain   d iv er s ity .   Desp ite  th eir   s u cc ess ,   PLM s   s t ill  f a ce   ch allen g es  with   m o r p h o lo g ical  v a r iatio n ,   r e g i s ter   d iv er s ity ,   an d   b iases   f r o m   lim ited   Fre n ch   co r p o r a ,   wh ich   ca n   lead   to   s em an tic  d r if in   p o ly s em o u s   co n tex ts ,   h ig h lig h tin g   th n ee d   f o r   m o r e   r o b u s a n d   co n tex t - s en s itiv ap p r o ac h es.       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   In d o n esian   J   E lec   E n g   &   C o m p   Sci Vo l.  41 ,   No .   3 Ma r ch   20 2 6 :   9 5 4 - 965   956   2 . 3 .     Co ntr a s t iv lea rning   a n d su perv i s ed  m et ho ds   R ec en ap p r o ac h es  h av ad v an ce d   b ey o n d   s tatic  em b ed d in g s   b y   in co r p o r atin g   c o n tr a s tiv an d   g en er ativ lear n i n g   f r a m ewo r k s .   SimCS E   [ 14 ]   r ef in es  s en ten ce   r ep r esen tatio n s   th r o u g h   c o n tr asti v lear n in g ,   u s in g   d r o p o u t - in d u ce d   p o s itiv es  in   u n s u p e r v is ed   m o d an d   p ar a p h r ase  p air s   with   n eg a tiv es  in   s u p er v is ed   m o d e.   Fre n ch   ad a p tatio n s   f in e - tu n ed   o n   FrSem L ex   im p r o v e d   STS - FR   p er f o r m an ce   an d   s em an tic   p r ec is io n   in   s en ten ce   alig n m en t.   T 5   [ 1 5 ]   an d   its   Fre n ch   v ar ia n ST5   [ 16 ] ,   [ 1 7 ]   r ec o n ce p t u al ize  s im ilar ity   as  tex g en er atio n   task ,   p r o d u cin g   r ef o r m u latio n s   o r   s im ilar ity   s co r es  th r o u g h   m u ltit ask   lear n in g .   E m p ir ical  r esu lts   s h o SimC SE   [ 2 - R o B E R T a - lar g e   ( 2 0 2 1 )   r ea c h in g   8 6 . 7   o n   STS - B ,   wh ile  S T 5   an d   m ST5   ac h iev u p   to   ρ   8 3 . 2   o n   XSTS,   co n f ir m in g   th c o m p lem en ta r ity   b etwe en   co n tr asti v an d   g e n er ativ p ar a d ig m s   f o r   s em an t ic  s im ilar ity   task s .     2 . 4 .     H y brid a nd   m ultim o da l   a pp ro a ches f o a dv a nced  N L P   Hy b r id   an d   m u ltimo d al  ar c h itectu r es  co m b in s y m b o lic  in ter p r etab ilit y   with   d ee p   co n tex tu al   u n d er s tan d i n g .   Sy s tem s   s u ch   as  Sem Glo Ve  [ 18 ] ,   [ 1 9 ]   in teg r ate  Glo Ve s   g lo b al  co - o cc u r r en ce   s tatis tic s   with   B E R T s   co n tex tu al  em b ed d in g s ,   ac h iev in g   1 2 % g ain s   in   le x ical  s im ilar ity   an d   im p r o v ed   W SD .   C r o s s - m o d al  m o d els  lik Sim - C L I [ 2 0 ] ,   DiC [ 2 1 ] ,   an d   MCS E   [ 2 2 ]   ex ten d   th ese  p r in cip les  to   v is io n lan g u a g a n d   a u d io tex d o m ain s ,   u s in g   co n t r asti v alig n m en t   f o r   p a r tially   lab el ed   o r   u n an n o tated   d atasets .   R ec en ad v an ce s   in   m u ltil in g u al  m u ltimo d al  m o d elin g ,   s u ch   as  m u ltil in g u al  Sen ten ce - T 5   [ 2 3 ] ,   en s u r cr o s s - lin g u al  s em a n tic  co n s is ten cy   an d   en ab le  c r o s s - m o d al  d is am b ig u atio n ,   b en ef itin g   m u ltil in g u al   tr an s latio n   an d   m u ltimo d al  r et r iev al.   Desp ite  th ese  ac h iev em en ts ,   m o s s tu d ies   f o cu s   o n   E n g lis h ,   with   lim ited   ex p lo r atio n   in   Fre n ch   esp ec ially   f o r   lex ically   id en tical  b u s em an tically   d iv er g e n s en ten ce s ,   wh ich   r em ain   a   cr itical  ch allen g f o r   co n te x t - s en s itiv u n d er s tan d in g .     2 . 5 .     Co m pa ra t iv s um ma ry   o f   ma j o m o del f a m ilies   T ab le  1   s u m m ar izes  m ajo r   NL m o d el  f am ilies ,   h ig h lig h tin g   r e p r esen tativ m o d els,  k ey   ad v an ce m e n ts ,   lim itatio n s ,   an d   r ep o r ted   p er f o r m an ce   to   p r o v id co n cise  co m p ar ativ o v er v iew  o f   cu r r en t   ap p r o ac h es.       T ab le  1 .   NL P m o d els f am ilies :   f ea tu r es,   lim itatio n s ,   an d   p er f o r m an ce s   M o d e l   f a mi l y   R e p r e se n t a t i v e   m o d e l s   K e y   f e a t u r e s / p r o g r e ss   Li mi t a t i o n s   P e r f o r ma n c e / N o t e s   M o d e l   f a mi l y   V e c t o r - b a s e d   LSA ,   W o r d 2 V e c ,   G l o V e ,   A r o r a   Ef f i c i e n t   e mb e d d i n g s,   l a t e n t / g l o b a l   s e ma n t i c s   N o   c o n t e x t ,   i g n o r e w o r d   o r d e r ,   m e m o r y - h e a v y     V e c t o r - b a s e d   Tr a n sf o r mer  P LM s   B ER T,   F l a u B ER T ,   S B ER T,   C a me mBE R T ,   B ER Tw e e t F R   C o n t e x t u a l   e mb e d d i n g s,  se n t e n c e - l e v e l   p o o l i n g   H i g h   c o s t ,   l o w   e x p l a i n a b i l i t y   M N LI : 8 4 . 6 ,   S TS - B : 8 4 . 9 ,   Te x t C l f : 9 5 %,   F 1 : 7 1 . 2 7   Tr a n sf o r mer  P LM s   C o n t r a st i v e   G e n e r a t i v e   S i mCSE ,   T 5 ,   m - S T5   C o n t r a st i v e   l e a r n i n g ,   g e n e r a t i v e   m o d e l i n g   N e e d s   f i n e - t u n i n g ,   d a t a - d e p e n d e n t   S TS - B : 7 6 . 8 5 8 6 . 7 0 ,   G LU E: 9 0 . 3 ,   X S TS ρ : 8 3 . 2   C o n t r a st i v e   /   G e n e r a t i v e   H y b r i d   /   M u l t i m o d a l   S e mG l o V e ,   M C S E,   D i C A ,   S i m - C LI P 4   Emb e d d i n g   f u s i o n ,   mu l t i m o d a l   l e a r n i n g   C o m p u t a t i o n a l l y   h e a v y   A c c u r a c y : 9 5 . 6 8 %,   mA P : 0 . 6 9 7 ,   C I D Er : 8 1 . 6   H y b r i d   /   M u l t i m o d a l       2 . 6   Dis cus s io n a nd   ide ntif ie d r esea rc h g a p   Alth o u g h   Fre n c h   PLM s   s u ch   as  C am em B E R T   an d   Flau B E R T   h av ac h iev ed   n o tab le  p r o g r ess ,   th ey   s till   s tr u g g le  with   p o ly s em y   an d   s em an tic  am b i g u ity   at  t h s en ten ce   lev el.   E x is tin g   b e n ch m ar k s ,   s u c h   as    STS - FR   an d   FrSem L ex ,   r em ain   lim ited   an d   lack   ex am p les  wh er lex ical  id en tity   h id es  d iv er g en m ea n i n g s   ( e. g . ,   f ils ,   co u r an t,   b r an c h e) .   Mo r eo v er ,   h y b r id   f r a m ewo r k s   co m b in in g   s y m b o lic  in ter p r etab ilit y   an d   n eu r al  r ea s o n in g   r e m ain   u n d er e x p lo r e d   f o r   Fre n c h .   R e ce n m u ltil in g u al  m o d els,  s u c h   as  m DeBERTa  [ 9 ] ,   L L aM A   [ 18 ] ,   an d   XSI M2 3   [ 1 ] ,   s h o p r o m is in g   p o ten tia f o r   m o d elin g   c r o s s - lin g u al  s em an tic  am b ig u ity ,   y et  th eir   ef f ec tiv en ess   f o r   co n tex tu al  d is am b ig u atio n   i n   Fre n ch   r em ain s   to   b in v esti g a ted .   Ou r   p r o p o s ed   h y b r id   m eth o d   d ir ec tly   a d d r ess es  lex icall y   id en tical  y et  s em an tically   am b ig u o u s   Fre n ch   s en ten ce s ,   b r id g in g   th g ap   b etwe en   h u m an - lik in ter p r etab ilit y   an d   th co n te x tu al  ac cu r ac y   o f   d ee p   lear n in g   r e p r esen tatio n s .   T h e   n o v elty   o f   o u r   ap p r o ac h   lie s   in   its   co n tex t - awa r f u s io n   m ec h an is m ,   wh ich   d y n am ically   ad ju s ts   th in ter p lay   b etwe en   s y m b o lic  an d   n e u r al  elem en ts   ac co r d in g   t o   lin g u is tic  co m p lex ity .   I n   co n tr ast  to   tr ad itio n al  h y b r id   m o d els  r ely in g   o n   f ix ed   w eig h tin g s ,   o u r   f r am ewo r k   co n tin u o u s ly   ass ess e s   am b ig u ity   cu es  to   f in e - t u n th tr ad e - o f f   b etwe en   p r ec is io n   an d   tr an s p ar en c y .   T h is   s ig n if i es  tr an s f o r m ativ s h if f r o m   r ig id   ar ch itectu r es  to   an   a d ap tiv s y s tem   tailo r e d   to   th e   s u b tleties   o f   Fre n ch ,   ef f ec tiv ely   tack lin g   p er s is ten t iss u es lik h o m o n y m y   an d   s tr u ctu r al  am b i g u ity   t h at  ch al len g c u r r en PLM s   an d   h y b r id   s o lu tio n s .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52       A   h yb r id   a p p r o a ch   fo r   mea s u r in g   s ema n tic  s imila r ity  in   lexi ca lly  id en tica   ( B tis s a E l J a n a ti )   957   3.   M E T H O D   3. 1   I ns t rum ent s   Ou r   h y b r id   ap p r o ac h   u s es  th e   s en ten ce - tr an s f o r m er s /all - m p n et - b ase - v2   v er s io n   o f   SB E R T ,   g en er atin g   7 6 8 - d im en s io n al  em b ed d in g s .   E x p er im en ts   w er co n d u cted   o n   Go o g le   C o lab   in   a   C PU  en v ir o n m en with   th f o llo wi n g   p ar am eter s b atch   s ize  o f   3 2 ,   tem p er at u r o f   0 . 0 5   f o r   th So f tMa x   f u n ctio n ,   an d   s im ilar ity   th r esh o ld   o f   0 . 6 .   T h im p lem e n tatio n   in teg r ates  W o r d Net  f o r   s y n s et  ex tr ac tio n ,   NL T an d   Sp aCy   f o r   lin g u is tic  p r ep r o ce s s in g ,   an d   cu s to m   r o u tin es  f o r   ca lcu latin g   weig h ted   f u zz y   J ac ca r d .   T h e   f u s io n   m ec h an is m   d y n am ically   co m b in es  co s in s im ilar itie s   ( wit h   L 2   n o r m aliza tio n )   an d   s y m b o li s im ilar itie s   th r o u g h   an   a d ap tiv atten tio n   f u n ctio n   b ased   o n   d etec ted   lin g u is tic  co m p lex ity .     3 . 2   O rg a ni g ra m m e   T h h y b r i d   m eth o d   co m b in es  lin g u is tic  d is am b ig u atio n   an d   s em an tic  v ec to r   m o d elin g   th r o u g h   eig h t   s eq u en tial step s   s u m m ar ized   in   Fig u r 1 .           Fig u r 1 .   W o r k f lo o f   th p r o p o s ed   h y b r id   a p p r o ac h       3 . 3   Ste p   1:   t o k en  f ilt e ring   a nd   a m big uity   det ec t io n   E ac h   to k en   in   th s en ten ce   is   ch ec k ed   ag ain s th W o r d Net  lex ical  d atab ases   to   d etec t   am b ig u o u s   ter m s ,   wh ich   f o r m   th e   s et  A,   wh ile  u n am b ig u o u s   wo r d s   f o r m   th s et  C .   Fo r   e x am p le,   in   t h s en ten ce   L es  f ils   d co n d u cte u r   o n t   co u p é  le   c o u r an t   ( T h e   d r iv er s   s o n s   c u th e   p o wer ) ,   we   o b tain A   {f ils ,   co n d u cteu r an d   C   {o n t,  c o u p é ,   co u r an t} .   Sto p   wo r d s   ar e   r em o v e d ,   an d   lem m atiza tio n   is   ap p lied   to   s tan d ar d ize  th lex ic al  f o r m s .   T h is   p r ep r o ce s s in g   s tep   en s u r es th at  th s im ilar ity   ca lcu latio n s .     3 . 4   Ste p   2:   l ex ica l sens e   ( Wo rdnet )   3 . 4 . 1 .   P o ly s emo us   t er m s   Fo r   ea ch   p o l y s em o u s   ter m ,   E n g lis h   d ef in itio n s   wer r etr i ev ed   f r o m   W o r d Net  an d   tr an s lated   in to   Fre n ch ,   r etain in g   th eir   u n iq u e   s y n s et  id en tifie r s .   f ils :   v 11 :   u n   co n d u cteu r   m étalliq u q u i   tr an s p o r te  l élec tr icité  s u r   u n d is tan ce   ( wir e. n . 0 2 ) .   v 12 :   u n p r o g é n itu r h u m ain m a s cu lin e   ( s o n . n . 0 1 ) .   co n d u cte u r :   v 21 :   l o p ér ateu r   d u n   v éh ic u le  à  m o te u r   ( d r iv er . n . 0 1 ) .   v 22 :   u n   ap p ar eil  co n ç u   p o u r   tr a n s m ettr l élec tr icité,   la  ch aleu r ,   etc.   ( co n d u cto r . n . 0 4 ) .         Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   In d o n esian   J   E lec   E n g   &   C o m p   Sci Vo l.  41 ,   No .   3 Ma r ch   20 2 6 :   9 5 4 - 965   958   3 . 4 . 2 .   G lo s s   prepro ce s s ing   Glo s s es  ar p r ep r o ce s s ed   b y   r em o v in g   Fre n ch   s to p wo r d s ,   lem m atizin g   n o u n s   an d   v er b s ,   an d   d eletin g   o cc u r r en ce s   o f   th e   tar g et  wo r d   to   a v o id   b ias.  E x a m p le  :   co n d u cte u r   ( co n d u ct o r . n . 0 4 )   o r ig in al  g lo s s   :   u n   ap p ar eil  co n ç u   p o u r   tr a n s m ettr l élec tr icité,   la  ch al eu r ,   etc.   Af ter   p r ep r o ce s s in g :   ap p ar eil  co n ce v o i r   tr an s m ettr élec tr icité  ch aleu r T h is   y ield s   clea n ,   s tan d ar d ized   g lo s s es  f o r   p r ec is s em an tic  s im ilar ity   co m p u tatio n .     3 . 5   Ste p   3:   h y brid co nte x t u a l sim ila rit y   m esu re m ent   Sem an tic  co h er en ce   b etwe en   ca n d id ate  s en s es  o f   am b ig u o u s   wo r d s   an d   th eir   co n te x tu al  ter m s   is   ev alu ated   u s in g   a   h y b r id   m o d e l in teg r atin g   weig h te d   f u zz y   ja cc ar d   an d   SB E R T   em b ed d in g s .     3 . 5 . 1 .   Weig hte f uzzy   j a cc a rd   T h weig h ted   f u zz y   jacc a r d ,   ad ap ted   f o r   Fre n ch   NL P,  m ea s u r es  lex ical  o v e r lap   b etwe en   g lo s s es  o f   ca n d id ate  s en s es  an d   c o n tex wo r d s   d o m in an s en s es.  Sco r es  r an g f r o m   0   to   1 ,   with   1   in d icatin g   p er f ec t   alig n m en t.     J fw ( A , B ) = j B i A ( w i , w j ) . s ( i , j ) w i i A + w j j B j B i A ( w i , w j ) . s ( i , j )     ( 1 )     w i , w j :   ter m   weig h ts .   A , B :   p r ep r o ce s s ed   g lo s s es o f   th tar g et  wo r d   s en s an d   co n tex wo r d   d o m in an t sen s e .   s ( i , j ) :   s em an tic  s im ilar ity   b etwe en   ter m s   i a n d   j .     Ou tp u t:    T h weig h ted   f u z zy   J ac ca r d   i n d ex ,   ad a p ted   f o r   Fre n ch   NL P,  m ea s u r es  lex ical  o v er lap   b etwe en   p r ep r o ce s s ed   g lo s s es  o f   ca n d id ate   s en s es  an d   th e   d o m i n an co n tex s e n s es.  E ac h   p air   is   s co r ed   f r o m   0   to   1 ,   with   1   in d icatin g   p er f ec t sem an tic  alig n m en t.   Pre p r o ce s s in g :     L em m atiza tio n   ( co u p és     co u p er )     Sto p wo r d   r em o v al  ( de le ont )     B ias m itig atio n   ( ex clu d tar g e t w o r d   f r o m   o w n   g lo s s )     3 . 5 . 2 .   Co s ine - ba s ed  s em a ntic   a na ly s is   f o F re nch   us ing   m ultiling ua l S B E R T   T o   ca p tu r d ee p er   s em an tic  r elatio n s h ip s   b ey o n d   lex ical  o v er lap ,   m u ltil in g u al  SB E R T   em b ed d in g s   co m p u te  co s in s im ilar ity   b etwe en   s en ten ce   v ec to r s   in   h ig h - d im e n s io n al  s p ac e,   ef f ec tiv ely   m o d elin g   s y n tactic  an d   co n ce p tu al  d e p e n d en cies,  with   o p tim izatio n   f o r   Fre n ch .       ( , ) =  (  ) [ 0 , 1 ]   ( 2 )      :   I n p u t te x r e p r esen tatio n .    an g le  b etwe en   em b ed d i n g   v e cto r s   in   h ig h   d im en s io n al  s p ac e .     3 . 5 . 3 .   H y brid s co ring   f o r m ula   T h co n tex t u al  s im ilar ity   b etwe en   ca n d id ate  w o r d s   an d   th eir   s u r r o u n d in g   c o n tex t w as e v alu ated   u s in g   h y b r id   m o d el  th at  c o m b in es  weig h ted   f u zz y   jacc ar d   an d   SB E R T   em b ed d in g s   ( T a b le  2 ) :          = ×   + ( 1 ) ×       ( 3 )     Par am eter s     α =0 . 7 w eig h t f o r   lex ical  s im ilar ity   u s in g   weig h te d   f u zz y   jac ca r d .     1 - α =0 . 3 w eig h t f o r   s em an tic  s im ilar ity   ( SB E R T ) .   T h weig h tin g   p ar am ete r   ( α )   co n tr o ls   th r elativ co n tr ib u ti o n   o f   lex ical  s im ilar ity   ( weig h ted   f u zz y   jacc ar d )   an d   s em an tic  s im i lar ity   ( SB E R T ) .   T o   d eter m in t h o p tim al  v alu o f   α ,   Py th o n - b ased   p r o g r am   test ed   v alu es  r an g in g   f r o m   0   to   1   in   in cr e m en ts   o f   0 . 1 ,   u s in g   s en ten ce   p air s   th at  a r l ex ically   s im ilar   b u s em an tically   d iv er g en t.  T h p r o g r am   a u to m atica lly   s elec ted   th α   v alu t h at  m ax im ized   t h o v er all  s im ilar ity   ac cu r ac y ,   r esu ltin g   in   a n   o p ti m al  α   =   0 . 7 .   T h is   co n f ig u r atio n   p r io r itizes  lex ical  s im ilar it y   wh ile  p r eser v in g   s em an tic  co n tex tu al  n u an ce s ,   ac h iev in g   b alan ce d   p e r f o r m an ce   in   d etec tin g   s em an tic  d iv er g en ce s   am o n g   lex ical ly   clo s s en ten ce s .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52       A   h yb r id   a p p r o a ch   fo r   mea s u r in g   s ema n tic  s imila r ity  in   lexi ca lly  id en tica   ( B tis s a E l J a n a ti )   959   T ab le  2 .   Hy b r id   c o n tex tu al  s i m ilar ity   m e a s u r em en t   Ta r g e t   w o r d   S B ER ( c o u p é )   S B ER ( c o u r a n t )   Jac c a r d   ( c o u p é )   Jac c a r d   ( c o u r a n t )   G l o b a l   s c o r e   F i l s   0 . 2 8 8   0 . 5 7 2   0 . 5 7 0   0 . 7 0 8   0 . 5 3 4   F i l s   0 . 4 3 8   0 . 2 8 8   0 . 5 9 2   0 . 4 4 1   0 . 4 3 9   C o n d u c t e u r   0 . 4 9 6   0 . 3 7 2   0 . 8 4 2   0 . 7 3 0   0 . 6 0 9   C o n d u c t e u r   0 . 3 0 2   0 . 6 9 4   0 . 7 0 2   1 . 0 0 0   0 . 6 7 4       I n ter p r etatio n :     W ir ( v 11 )   an d   c o n d u cto r   ( v 22 ) h ig h   g lo b al  s co r ( 0 . 5 6 3   an d   0 . 6 3 6 ) .   T h eir   v er y   s tr o n g   s em an t ic  SB E R T   an d   J AC C A R s im ilar i ty   wit h   cu r r e n t .   Sh o ex ce llen t c o h er en ce   with   t h elec tr ical  co n tex t.     So n   ( v 12 )   an d   d r i v er   ( v 21 ) t h eir   s im i lar ities   ar wea k er   an d   p r im ar ily   alig n ed   with   cu t ,   in d icatin g   less   r elev an t c o h e r en ce   f o r   th e   elec tr ical  co n tex t.     Key   f in d in g : o n ly   wir ( v 11 )   an d   c o n d u ct o r   ( v 22 ):   d em o n s tr ate  o p ti m al  alig n m en t w ith   th s en te n ce .     3. 6   Ste p   4:   s ens e   weig hting   Fo r   ea ch   am b i g u o u s   wo r d   s en s s i ,   b u ild   h y b r i d   s im ilar ity   v ec to r   ( T ab le  3 )       = 0 . 7 ×   ( ,  ˊ ) + 0 . 3 ×   + 0 . 7 × ( ,   ) 0 . 3 ×   ( ,   )   ( 4 )       : g lo b al  v ec to r   r ep r esen tin g   th co n tex tu al  s im ilar ity   f o r   th am b ig u o u s   wo r d   s i .   E x am p le:     Fo r   co n d u cte u r   as   d r iver :   v   = [ 0 . 7 × 0 . 843 + 0 . 3 × 0 . 497 , 0 . 7 × 0 . 729 + 0 . 3 × 0 . 371 ]   =   [ 0 . 739 , 0 . 622 ]       T ab le  3 .   Vec to r   b ased   co n tex t u al  alig n m m en o f   wo r d   s en s e   Ta r g e t   w o r d   V e c t o r   I n t e r p r e t a t i o n   F i l s   [ 0 . 4 8 6 ,   0 . 6 6 6 ]   S t r o n g   a l i g n m e n t   w i t h   e l e c t r i c a l   c u r r e n t   F i l s   [ 0 . 5 4 7 ,   0 . 3 9 4 ]   N o   me a n i n g f u l   c o r r e l a t i o n   w i t h   e l e c t r i c a l   c o n t e x t   C o n d u c t e u r   [ 0 . 7 3 9 ,   0 . 6 2 2 ]   M o d e r a t e   t e c h n i c a l   r e l e v a n c e   C o n d u c t e u r   [ 0 . 5 8 3 ,   0 . 9 0 8 ]   G o o d   c u r r e n t   c o r r e l a t i o n       T h ese  v ec to r s   allo q u an tita tiv weig h tin g   o f   ea ch   s en s b ased   o n   its   s em an tic  an d   lex ical  co h er en ce ,   f ac ilit atin g   th s elec tio n   o f   th e   m o s t c o n tex tu ally   a p p r o p r iate   m ea n in g .     3 . 7   Ste p   5:   c ent ro id a na ly s i s   I d en tify   th e   s en s m o s c o h er en with   th o v er all  c o n tex t   u s in g   g eo m etr ic   ce n ter .   T a b le  4   s h o ws   C en tr o id   ca lcu latio n c o m p u te   th ar ith m etic  m ea n   o f   th e   co o r d in ates o f   all  p o in ts   ( all  s en s es c o m b in ed ) .     =   1 = 1   ( 5 )     W h er e:   G = ( G x , G y )   is   th ce n tr o id   o r   m ea n   ce n ter   o f   th e   p o in ts .   V i = ( x i , y i ) i s   th v ec to r   r e p r esen tin g   th e   i - th   p o in t.   n   is   th to tal  n u m b er   o f   p o i n ts   E x am p le:   w ith   4   p o in ts :     G = ( 0 . 486   +   0 . 5 4 7   +   0 . 7 3 9   +   0 . 583 4 , 0 . 666   +   0 . 3 94   +   0 . 6 2 2 +   0 . 90 8   4 )   = ( 0 . 589   , 0 . 648   )       E u clid ea n   d is tan ce   to   t h ce n tr o id :   Fo r   ea ch   s en s s i with   co o r d in at es ( x i , y i ) :     ( , ) = (   ) 2   + ( ) 2       ( 6 )     E x am p le:  d is tan ce   f o r   wir e. n . 0 1   ( 0 . 4 8 6 ,   0 . 6 6 6 )     d = ( 0 . 486 0 . 589   ) 2 + ( 0 . 666 0 . 648   ) 2     = 0 . 0109 =0 . 1 0 4     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   In d o n esian   J   E lec   E n g   &   C o m p   Sci Vo l.  41 ,   No .   3 Ma r ch   20 2 6 :   9 5 4 - 965   960   T ab le  4 .   E u clid e a n   d is tan ce   to   th ce n tr o id   Ta r g e t   w o r d   sen s e   D i st a n c e   I n t e r p r e t a t i o n   F i l s   v 11   0 . 1 0 4   V e r y   c l o se  t o   d e   c e n t r o i d   F i l s   v 12   0 . 2 5 7   F a r t h e st   f r o t h e   c e n t r o i d   C o n d u c t e u r   v 21   0 . 1 5 4   F u r t h e r   f r o m   t h e   c e n t r o i d   C o n d u c t e u r   v 22   0 . 2 6 1   C l o ses t   t o   t h e   c e n t r o i d       3 . 8   S t ep   6:   n o rma liza t io n   T h p r o b ab ilit y   o f   s en s i f o r   an   am b i g u o u s   wo r d   is   th r at io   o f   th e x p o n en tial o f   its   g lo b al  s co r to   th s u m   o f   th ex p o n e n tials   o f   th g l o b al  s co r es o f   all  p o s s ib le  s en s es j  o f   th s am wo r d   ( T ab le  5 ) .     ( ) =            ( 7 )       T ab le  5 .   Pro b ab ilit y   Ta r g e t   w o r d   G l o b a l   sc o r e   P r o b a b i l i t y   F i l s   0 . 5 6 3   5 3 . 6 %   F i l s   0 . 4 1 7   4 6 . 4 %   C o n d u c t e u r   0 . 6 3 6   5 0 . 3 %   C o n d u c t e u r   0 . 6 2 6   4 9 . 7 %       I n ter p r etatio n :   t h So f tMa x   n o r m aliza tio n   t h en   co n v er ts   th ese  g lo b al  s co r es  in to   p r o b ab ilit ies,  p r o v id i n g   r elativ lik elih o o d   o f   ea ch   s en s in   th g iv e n   co n tex t.  I n   th tab le  ab o v e,   th s e n s wir r ec eiv es a   p r o b a b ilit y   o f   5 3 . 6 %,  wh ile  th s en s s o n   h as  4 6 . 4 %.  T h is   in d icate s   th at  wir is   s lig h tly   m o r lik ely   in   th co n tex t,   b u t   b o t h   s en s es  ar e   s till   p lau s ib le.   Pro b ab ilit ies  f o r   o th er   a m b ig u o u s   wo r d s   a r in ter p r eted   s im ilar ly ,   g iv in g   n o r m alize d ,   co m p ar at iv m ea s u r o f   s en s r elev an c e.     3 . 9   Ste p   7:   c o m pu t a t io o f   t he  g lo ba J - f uzzy   weig hting   s co re   a nd   s em a ntic   s im ila rit y   m ea s urem en t               bet wee n lex ica l y   s im ila s ent ence s   T h g lo b al  J - f u zz y   weig h ted   s co r co m b in es f u zz y   lex ical  s im ilar ity   an d   s en s p r o b ab ilit y   f o r   W SD C an d id ate  d ef in itio n s   ar s co r ed   u s in g   f u zz y   J ac ca r d   a n d   SB E R T   s im ilar ity ,   n o r m alize d   v ia  So f tMa x ,   an d   th e   f in al  s co r is   th weig h ted   a v e r ag o f   f u zz y   J ac ca r d   v alu es  m u ltip lied   b y   s en s p r o b a b ilit ies     J F uzz y W ei g ht ed = 1   N   P ( s i ) ×   J a c c a r d ( s i ) = 1   ( 8 )     Her e,   d en o tes  th s en s p r o b a b ilit y   an d   r ep r esen ts   th f u zz y   lex ical  s im ilar ity   b etwe en   c o n tex an d   th s en s d ef in itio n .   T h is   m ea s u r ca p tu r es  s em an tic  s i m ilar ity   ev en   f o r   lex ically   clo s s en ten ce s f o r   in s tan ce ,   L es  f ils   d u   c o n d u c teu r   o n t   co u p é  le  C o u r a nt   d o es  n o r ea c h   f u ll  s im ilar ity   b ec au s am b ig u o u s   wo r d   s en s es  ( f ils s o n   v s   f ils :   wir es)  af f ec th s co r e.   T h u s ,   th g lo b al  J - f u zz y   weig h ted   s co r r ef lects  b o th   lex ical  o v er lap   an d   s en s p la u s ib ilit y ,   in teg r atin g   co n tex t u al  an d   s em an tic  u n d er s tan d in g ,   e n ab lin g   d is tin ctio n   o f   lex ically   id en tical  b u s e m an tically   d if f er e n s en ten ce s ,   an d   o f f e r in g   m o r h u m an - lik an d   r o b u s t   m ea s u r th an   p u r ely   le x ical  ap p r o ac h es.     3 . 10   Ste p   8:   v a ria nt  pro j ec t io n   T o   r ep r esen t h p o te n tial  m e an in g s   o f   a m b ig u o u s   ter m s   li k f ils   an d   co n d u cte u r ,   v ec t o r   s p ac is   b u ilt  with   two   co n tex tu al  d im en s io n s th x - ax is   en co d es  weig h ted   f u zz y   J ac ca r d   a n d   SB E R T   s im ilar ity   w ith   co u p é  ( elec tr ical  in te r r u p tio n ) ,   an d   th y - ax is   en c o d es th s a m s im ilar ity   with   co u r an ( elec tr ical  f lo w) .   I n ter p r etatio n :   T h is   d u al - m etr ic  ap p r o ac h   c o m b in es  f u zz y   J ac ca r d   an d   SB E R T   to   p o s itio n   ea ch   s en s in   th co n tex tu al  v ec to r   s p ac e.   C en tr o id   an aly s is   s h o ws  th at  co n d u cteu r   ( élec tr iq u e)   a n d   f ils   ( élec tr iq u e)   ar clo s est  to   th av er a g co n tex t,  c o n f ir m in g   th eir   tec h n ical  r elev a n ce ,   wh ile  f ils   ( f am ilial)  an d   co n d u cteu r   ( ch au f f eu r )   lie  f ar th er   awa y ,   ex clu d in g   th em   f r o m   th elec tr ical  d o m ain .   T h is   v ec to r - b ased   an aly s is   v alid ates  o p tim al  d is am b ig u atio n   f o r   th e   co n tex t .   Geo m etr ic  an aly s is   o f   c o n tex tu al  wo r d   s en s es   as   s h o wn   in   Fig u r 2 .         Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52       A   h yb r id   a p p r o a ch   fo r   mea s u r in g   s ema n tic  s imila r ity  in   lexi ca lly  id en tica   ( B tis s a E l J a n a ti )   961       Fig u r 2 .   Geo m etr ic  an aly s is   o f   co n te x tu al  wo r d   s en s es       3 . 1 1   Co m pu t a t i o na l c o m plex it y   a nd   s ca la bil it y   T h co m p u tatio n al   co m p lex ity   o f   th e   p r o p o s ed   m o d el   v ar i es  ac r o s s   its   co m p o n en ts .   T o k en izatio n   an d   lem m atiza tio n   s ca le  lin ea r ly   with   s en ten ce   len g th ,   wh ile  lex ico n   lo o k u p   d ep e n d s   o n   th n u m b e r   o f   am b ig u o u s   to k en s .   T h weig h ted   f u zz y   J ac ca r d   co m p u tatio n   s ca l es  with   th s ize  o f   g lo s s es  an d   co n tex tu a l   to k en s ,   an d   SB E R T   in f er en ce   d ep en d s   o n   b o t h   s en ten ce   len g th   an d   em b e d d in g   d im e n s io n ality .   C en tr o id   an d   d is tan ce   ca lcu latio n s   s ca le  with   th n u m b er   o f   ca n d id ate   s en s es,  an d   th So f tMa x   lay e r   with   th n u m b er   o f   s en s p r o b ab ilit ies to   co m p u te .   Fro m   p r ac tical  s tan d p o in t,  ef f icien cy   ca n   b im p r o v ed   b y   ca ch in g   em b ed d in g s   an d   in ter m ed iate   r esu lts ,   p er f o r m in g   b atch e d   SB E R T   in f er en ce   o n   GPU,   an d   p ar allelizin g   co m p u tatio n s   ac r o s s   to k en s   o r   s en ten ce s .   T h ese  o p tim izatio n s   en s u r s ca lab ilit y   f o r   lar g e r   d atasets   an d   lo n g er   te x tu al  in p u ts .     3 . 1 2   I nte rpre t a bil it y   Ou r   ap p r o ac h   p r o v id es in ter p r etab ilit y   at  th r ee   co m p lem en ta r y   lev els:     L ex ical  lev el:  t h weig h ted   f u zz y   J ac ca r d   id en tifie s   k ey   t o k en s   in   W o r d Net  d ef in itio n s ,   r ev ea lin g   th eir   r elativ im p o r tan ce   in   s im ilar ity   ca lcu latio n .     Vec to r   an d   d is tan ce   lev el:  s e n ten ce s   ar r e p r esen ted   as  h y b r id   v ec to r s   co m b in in g   lex ic al  an d   s em an tic   f ea tu r es.  T h ce n tr o id   s er v es  as  s em an tic  r ef er en ce   p o in t,  wh er s h o r ter   E u c lid ea n   d is tan ce s   in d icate   h ig h er   s im ilar ity   an d   lo n g er   d i s tan ce s   s h o s em an tic  d iv er g en ce .     Pro b ab ilis tic  lev el:  t h So f t Ma x   f u n ctio n   co n v er ts   r aw  s im ilar ity   s co r es  in to   p r o b ab il ity   d is tr ib u tio n s ,   en ab lin g   clea r   c o m p a r is o n   b et wee n   s y n s ets an d   p r o v id in g   p r o b a b ilis tic  b asis   f o r   co m p o n en t f u s io n .       4.   E XP E R I M E N T A L   VAL I D AT I O N   4 . 1 .     H u m a n e v a lua t io n f ra mewo rk   r ig o r o u s   ev alu atio n   p r o to c o was  im p lem en ted   u s in g   0 - 1 0 0   s ca le  with   n ativ Fre n ch   s p ea k er s ,   in clu d in g   lin g u is tics   an d   NL s p ec iali s ts .   T h m eth o d o lo g y   d em o n s tr ated   r o b u s r eliab ilit y   with   Flei s s   Kap p o f   0 . 4 8   ( m o d er ate  ag r e em en t)   an d   test - r etest  co r r elatio n   o f   0 . 8 2 ,   s u p p o r ted   b y   co m p r eh en s iv q u ality   co n tr o l m ea s u r es to   en s u r d ata  v alid ity .     4 . 2   Co m pa ra t iv s y s t m s p ec if ica t io n   T h e   ex p er i m e n tal  ev alu atio n   i n co r p o r ated   co m p r eh e n s iv s tate - of - th e - a r s y s tem s   in clu d in g   GPT - ( g p t - 4 - 0 6 1 3 ) ,   Gem in Pro   ( g em in i - 1 . 5 - p r o ) ,   Per p le x ity   AI   ( 2 0 2 4 - 0 8   API ) ,   Dee p Seek   C h at  ( d ee p s ee k - llm - 67b - c h at) ,   alo n g   with   r esear ch   s y s tem s   Sim C SE - f r   an d   T 5 - E n co d er .   All  s y s tem s   u n d er wen id en tical  p r ep r o ce s s in g   p ip elin es  with   u n if ie d   7 6 8 - d im en s io n al  em b ed d in g s ,   u s in g   co s in s im ilar ity   with   L 2   n o r m aliza tio n .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   In d o n esian   J   E lec   E n g   &   C o m p   Sci Vo l.  41 ,   No .   3 Ma r ch   20 2 6 :   9 5 4 - 965   962   4 . 3   E x perim ent a l r esu lt s   co m p r eh en s iv e   an aly s is   o f   3 3   s en te n ce s   co m p ar ed   h u m an   ev alu atio n s   with   AI - g en er ated   s im ilar ity   s co r es a n d   o u r   h y b r i d   ap p r o ac h ,   as d etailed   in   T ab l 6 .       T ab le  6 E v alu atio n   h u m an   ju d g m en ts   v s   ar tific ial  in tellig en ce   ( AI )   s y s te m s   v s   h y b r i d   ap p r o a ch   S e n t e n c e s   A p p r o a c h   H u ma n   AI   H u ma n - AI   H u ma n - a p p r o a c h   L e s f i l s   d u   c o n d u c t e u r   o n t   c o u p é   l e   c o u ra n t   0 . 7 2   0 . 3 2   1 . 0 0   0 . 7 9   0 . 4 3   L e   m é d e c i n   a   d e m a n d é   u n e   ra d i o   d u   b ra s   0 . 7 3   1 . 0 0   1 . 0 0   0 . 0 0   0 . 6 1   L a   c a r t e   d u   r o i   e st   p e r d u e   0 . 3 7   0 . 0 4   1 . 0 0   0 . 6 2   0 . 7 2   L a   p o l i c e   e st   v u e   a v e c   u n e   b a rr e   0 . 2 4   0 . 6 1   1 . 0 0   0 . 3 9   0 . 6 2   L e   res p o n s a b l e   d e   n o t re   p o s t e   a   v i s i t é   l e   p a rc   0 . 5 6   0 . 8 1   1 . 0 0   0 . 1 8   0 . 8 2   I l   f a u t   a j o u t e p l u si e u rs   ser v e u rs  p o u r   ren f o rce n o t re  syst è m e   0 . 7 3   0 . 5 6   1 . 0 0   0 . 4 4   0 . 5 9   L e   p r o f e sse u a   c a ssé  l a   g l e   e n   c l a s se   0 . 7 9   0 . 0 0   1 . 0 0   1 . 0 0   0 . 0 0   Ap rès   l e   v o l   d e   l a   n u i t ,   l e b a l l e s s o n t   l a n c é e a u   c i e l   0 . 9 8   0 . 6 4   1 . 0 0   0 . 3 7   0 . 2 3   L e s f e u i l l e so n t   sa u v e g a r d é e s s u l a   t a b l e   0 . 3 7   0 . 8 6   1 . 0 0   0 . 1 2   0 . 8 3   L a   t a b l e   e s t   t rès   u t i l e   p o u r   l e   t r a v a i l   a u   b u r e a u   0 . 8 7   0 . 7 7   1 . 0 0   0 . 2 3   0 . 3 4   L e   t o u d u   ro i   e s t   d a n g e r e u x   0 . 1 2   0 . 4 9   1 . 0 0   0 . 5 1   0 . 6 0   L a   f e n ê t r e   e st   r e st é e   o u v e rt e   p e n d a n t   q u i l   m a rc h e   0 . 8 6   0 . 7 6   1 . 0 0   0 . 2 4   0 . 3 3   L e s p u c e s s o n t   v i s i b l e s   s u r l a   c a r t e   0 . 0 0   0 . 2 8   1 . 0 0   0 . 8 3   0 . 8 3   O n   a   d é c o u v e rt   l a   v a l e u r   d e   n o t re   t o u r a u   c o u rs  d e   l h i s t o i re   0 . 5 9   0 . 5 7   1 . 0 0   0 . 3 8   0 . 5 9   L a   s o m m e   d e s   c h a r g e s   e s t   l o u r d e   0 . 1 7   0 . 3 2   1 . 0 0   0 . 6 8   0 . 4 1   L a   r o u e   a   r o u l é   p r è d u   t r a i n   0 . 9 7   0 . 6 5   1 . 0 0   0 . 2 5   0 . 0 5   S a   v o i x   c o m p t e   d a n l a   d é c i si o n   f i n a l e   0 . 8 3   0 . 5 6   1 . 0 0   0 . 4 5   0 . 2 5   I l   a   p o   u n e   c o u c h e   s u l a   t a b l e   0 . 6 5   0 . 4 0   1 . 0 0   0 . 6 1   0 . 3 1   L e   p l a n   d u   s p e c t a c l e   a   é t é   i m p r i m é   s u r l a   t a b l e   0 . 7 4   0 . 5 8   1 . 0 0   0 . 4 3   0 . 2 4   I l   a   a c h e t é   u n e   l i v r e   a u   m a r c h é   a v e c   s e s f i l s   0 . 4 0   0 . 7 9   1 . 0 0   0 . 2 1   0 . 4 9   L a   m i n e   e s t   u sée   a p r è b e a u c o u p   d u s a g e   0 . 4 3   0 . 6 6   1 . 0 0   0 . 3 3   0 . 4 4   L a   p ress i o n   s u l e   c o u rs   e s t   i n q u i é t a n t e   0 . 1 7   0 . 5 6   1 . 0 0   0 . 4 5   0 . 9 2   L e s e n f a n t p o rt e n t   u n e   o r a n g e   à   l a   m a i t ress e   p rès  d u   p a r c   0 . 4 2   0 . 7 5   1 . 0 0   0 . 3 3   0 . 3 2   El l e   a   é c ri t   l a   l e t t r e   e n   c a p i t a l e   c e   m a t i n   0 . 4 9   0 . 3 4   1 . 0 0   0 . 6 7   0 . 3 1   I l   a   p e rd u   l a   p i l e   a u   c o u rs  d u   m a t c h   0 . 4 5   0 . 3 1   1 . 0 0   0 . 7 0   1 . 0 0   L a   m a n c h e   a   p ri p r è d u   f e u   1 . 0 0   0 . 6 9   1 . 0 0   0 . 3 1   0 . 1 0   L a   b ra n c h e   q u i   m è n e   a u   d r o i t   e s t   b i e n   d é f i n i e   0 . 6 4   0 . 2 1   1 . 0 0   0 . 6 9   0 . 3 9   L e   v o i l e   e st   t o m b é   a u   m o m e n t   d u   sp e c t a c l e   0 . 4 3   0 . 4 1   1 . 0 0   0 . 6 0   0 . 2 1   J a v a   p o ssè d e   p l u si e u rs   p o rt s   a c t i f s   à   g é r e r   0 . 4 2   0 . 5 7   1 . 0 0   0 . 4 4   0 . 4 3   D u ra n t   l a   s a i s o n   d e   réc o l t e ,   l a   p ê c h e   a   c a ss é   l a   b r a n c h e   0 . 4 4   0 . 5 8   1 . 0 0   0 . 2 5     0 . 4 1       Statis t ical  an aly s is   s h o ws  th at   th d if f er en ce   b etwe en   AI   s y s tem s   an d   h u m an   ev alu atio n s   is   h ig h ly   s ig n if ican ( p   0 . 0 0 0 0 5 9   0 . 0 0 1 ) .   T h u s ,   th n u ll  h y p o th esis   ( H₀)   is   r ejec ted ,   in d icatin g   th at  cu r r en s y s tem s   s ig n if ican tly   d iv er g f r o m   h u m an   j u d g m e n ts ,   wh ile  th p r o p o s ed   h y b r id   ap p r o ac h   ac h iev es  b etter   co n v er g en ce .   T h e   ef f ec t   s ize  ( C o h en s   d   - 0 . 8 0 )   c o n f ir m s   s tr o n g   e f f ec t,   d em o n s tr atin g   th at   th e   im p r o v em e n t is b o th   s tatis tical ly   an d   p r ac tically   m ea n in g f u l.   C o n f id en ce   in ter v als f u r th er   s u p p o r t th r o b u s tn ess   o f   th ese  f in d in g s :     MA E   ( Hy b r id   a p p r o ac h ) : 4 0 . 0 2   [ 3 9 . 0 5     4 0 . 9 9 ] .     MA E   ( R ef er en ce   AI ) : 4 5 . 3 2   [ 4 3 . 3 9     4 7 . 2 6 ] .   T h av er ag r ed u ctio n   o f   5 . 3 1   p o in ts   co r r esp o n d s   to   r el ativ im p r o v em e n o f   1 1 . 7 %.   Sin ce   th co n f id en ce   in ter v al  [ - 7 . 6 4 ,   - 2 . 9 7 ]   ex clu d es  ze r o ,   th e   o b s er v ed   e f f ec is   r o b u s a n d   r eliab le.   Mo r eo v er ,     th p r o p o s ed   ap p r o ac h   ac h iev es  th lo west  MA E   an d   r o o m ea n   s q u ar ed   e r r o r   ( R MSE ) ,   th h ig h est  s em an tic  ac cu r ac y   ( 0 . 8 7 5 ) ,   a n d   th e   b es m ea n   r an k   ( 1 . 8 ) ,   c o n f ir m in g   its   s tab ilit y   an d   clo s en ess   to   h u m an   r ea s o n in g .   T ab le  7   co m p ar es  th h y b r id   ap p r o ac h   with   SimCS E   an d   T 5   ac r o s s   m u ltip le  m etr ics,  ass es s in g   s em an tic   alig n m en t,  er r o r   m i n im izatio n ,   an d   co r r elatio n   with   h u m a n   ju d g m e n ts :   W h ile  T 5   ac h iev es  h ig h e r   c o r r elatio n   co ef f icien ts   d u e   to   its   lar g e - s ca le  p r etr ain in g ,   t h h y b r id   ap p r o ac h   o u tp er f o r m s   b o th   m o d els  in   MA E ,   R MSE ,   an d   s em an tic  ac cu r ac y ,   co n f ir m in g   i ts   g r ea ter   s tab ilit y   an d   in ter p r etab ilit y .   T h e   lo we r   er r o r   m ar g in s   i n d icate   th at   i n o o n ly   ca p tu r es  g en e r al  s e m an tic  tr en d s   b u also   f in e - g r ain e d   d is tin ctio n s   i n   m ea n in g .       T ab le  7 C o m p a r ativ p er f o r m an ce - h y b r id   a p p r o ac h   v s . m o d er n   m eth o d s   M e t r i c   H y b r i d   a p p r o a c h   S i mCSE   T5   B e st   S p e a r m a n   c o r r e l a t i o n   0 . 7 6 2   0 . 7 1 4   0 . 9 0 5   T5   P e a r so n   c o r r e l a t i o n   0 . 8 4 1   0 . 7 0 1   0 . 9 2 6   T5   M A E   0 . 1 3 3   0 . 3 0 9   0 . 3 7 6   H y b r i d   R M S E   0 . 2 1 1   0 . 4 0 8   0 . 4 6 5   H y b r i d   S e ma n t i c   a c c u r a c y   0 . 8 7 5   0 . 5 0 0   0 . 5 0 0   H y b r i d   M e a n   r a n k   1 . 8   2 . 8   2 . 4   H y b r i d   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52       A   h yb r id   a p p r o a ch   fo r   mea s u r in g   s ema n tic  s imila r ity  in   lexi ca lly  id en tica   ( B tis s a E l J a n a ti )   963   5.   DIS CU S SI O N   Ou r   h y b r id   ap p r o ac h   d e m o n s tr ates  s u p er io r   s em an tic  co h er en ce   with   h u m an   ju d g m e n ts   th r o u g h   s tr o n g   c o r r elatio n s   ( Sp ea r m a n 0 . 7 6 2 ,   Pear s o n :   0 . 8 4 1 )   an d   s ig n if ican tly   r e d u ce d   er r o r s   ( MA E 0 . 1 3 3   v s   0 . 3 0 9 - 0 . 3 7 6   f o r   b aselin es),   ac h iev ed   v ia  ad a p tiv in teg r atio n   o f   s y m b o lic   an d   n eu r al  co m p o n en ts   th at   d y n am ically   r esp o n d s   to   am b ig u ity   p atter n s .   W h ile  T 5   a ch iev es  h ig h er   co r r elatio n s   ( 0 . 9 0 5   Sp ea r m an ) ,   it   s y s tem atica lly   o v er esti m ates  lex ical  s im ilar ity ,   wh er ea s   o u r   m eth o d   m ain tain s   b o th   co n tex tu al  s en s itiv ity   an d   cr u cial  in ter p r eta b ilit y ,   d esp i te  f ac in g   lim itat io n s   in   cr o s s - lin g u is tic  ad ap tatio n   an d   h an d lin g   co m p le x   p r ag m atic  am b i g u ities .   T h ese  f in d in g s   ch allen g co n v en t io n al  s ca lin g   p ar ad i g m s   b y   d em o n s tr atin g   th at   s o p h is ticated   ar ch itectu r al  d e s ig n   ca n   ac h iev s u p er io r   p er f o r m an ce   co m p ar ed   to   s im p l y   in cr ea s in g   m o d el   p ar am eter s ,   th er e b y   en a b lin g   m o r r eso u r ce - ef f icien d ep lo y m en t.         6.   CO NCLU SI O N   T h is   s tu d y   p r esen ts   h y b r id   ap p r o ac h   f o r   Fre n ch   s em a n tic  s im ilar ity   an d   W SD ,   co m b in in g   f u zz y   J ac ca r d   lex ical  m atch in g   wit h   SB E R T   em b ed d in g s .   E x p e r im en tal  v alid atio n   o n   3 3   am b ig u o u s   s en ten ce s ,   ev alu ated   b y   n ativ s p ea k e r s ,   d em o n s tr ated   th at  th h y b r id   m o d el  s ig n if ican tly   o u tp e r f o r m s   ex is tin g   AI   s y s tem s ,   ac h iev in g   an   1 1 . 7 % r ed u ctio n   in   MA E   co m p ar ed   t o   C h atGPT   an d   Gem in i ( t =   - 4 . 6 2 ,   p   5 . 9 2 × 1 0 ⁻⁵) .   T h ap p r o ac h   p r o d u ce s   in ter p r etab le,   co n tex t - s en s itiv r esu lts ,   p ar ticu lar ly   f o r   lex ic ally   id en tical  b u t   s em an tically   d iv er g e n s en ten ce s ,   d em o n s tr atin g   s tr o n g   ali g n m en t   with   h u m an   ju d g m en ts   an d   tr a n s p ar en t   d ec is io n - m ak in g .   Ou r   ap p r o ac h   ch an g es  th s tate  o f   th ar b y   in tr o d u ci n g   d y n am ic  in teg r atio n   b etwe en   s y m b o lic  an d   n eu r al  m eth o d s ,   wh er ea s   p r e v io u s   wo r k   f av o r ed   s tatic  co m b in atio n s   o r   p u r el y   n eu r al  ar ch itectu r es.  T h is   in n o v atio n   en ab les  co n tex tu al  am b ig u ity   r eso lu tio n   th at  s u r p ass es  th lim itatio n s   o f   co n v en tio n al  ap p r o ac h es,   wh ile  m ain tain in g   th i n ter p r e tab ilit y   o f ten   s ac r if iced   in   lar g e - s ca le  m o d els.   T h h y b r id   f r am ewo r k   co n tr i b u tes  th eo r etica lly   b y   b r id g i n g   s y m b o lic  lin g u is tic  k n o wled g with   n eu r al  c o n tex tu al  m o d elin g ,   a n d   p r ac tically   b y   im p r o v in g   NL task s   s u ch   as  m ac h in t r an s latio n ,   q u esti o n   an s wer in g ,   an d   s em an tic  s ea r ch   with   ac cu r ate  an d   ex p lain ab le  s en ten ce - lev el  r ep r esen t atio n s .   L im itatio n s   in clu d th e   r estricte d   e v alu at io n   s et  an d   f o cu s   o n   Fre n c h ,   wh ile  f u tu r p er s p ec tiv es  in v o lv m u ltil in g u al  ad ap tatio n ,   s ca lin g   to   lar g e r   b en ch m ar k s ,   an d   in teg r atio n   o f   ex p lain ab le  m o d u les  to   en h a n ce   in ter p r etab ilit y   an d   u s er   tr u s t.       F UNDING   I NF O R M A T I O N   T h is   r esear ch   was su p p o r ted   b y   I b n   T o f ail   Un iv e r s ity   as p ar t   o f   th d o cto r al  r esear ch   p r o je ct.       AUTHO CO NT RI B UT I O NS ST A T E M E N T   T h is   jo u r n al  u s es  th C o n tr ib u to r   R o les  T ax o n o m y   ( C R ed iT)   to   r ec o g n ize  in d iv id u al  au th o r   co n tr ib u tio n s ,   r ed u ce   au th o r s h ip   d is p u tes,  an d   f ac ilit ate  co llab o r atio n .     Na m o f   Aut ho r   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   B tis s am   E l   J an ati                               A d il   E n aa n a i                               Fad o u Gh an im i                                 C     C o n c e p t u a l i z a t i o n   M     M e t h o d o l o g y   So     So f t w a r e   Va     Va l i d a t i o n   Fo     Fo r mal   a n a l y s i s   I     I n v e s t i g a t i o n   R     R e so u r c e s   D   :   D a t a   C u r a t i o n   O   :   W r i t i n g   -   O r i g i n a l   D r a f t   E   :   W r i t i n g   -   R e v i e w   &   E d i t i n g   Vi     Vi su a l i z a t i o n   Su     Su p e r v i s i o n   P     P r o j e c t   a d mi n i st r a t i o n   Fu     Fu n d i n g   a c q u i si t i o n         CO NF L I C T   O F   I N T E R E S T   ST A T E M E NT     T h au th o r s   d ec lar th at  th ey   h av n o   k n o w n   co m p etin g   f in an cial  in ter ests   o r   p er s o n al  r el atio n s h ip s   th at  co u ld   h av ap p ea r ed   t o   in f lu en ce   th wo r k   r e p o r te d   in   t h is   p ap er .           Evaluation Warning : The document was created with Spire.PDF for Python.