I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m pu t er   Science   Vo l.   38 ,   No .   2 Ma y   20 25 ,   p p .   1 170 ~1 1 8 0   I SS N:  2 502 - 4 7 52 ,   DOI : 1 0 . 1 1 5 9 1 /ijee cs .v 38. i 2 . p p 1 1 7 0 - 1 1 8 0          1170     J o ur na l ho m ep a g e h ttp : //ij ee cs . ia esco r e. co m   Wo rd embed ding  f o r cont ex tual si mila rity using  cos ine  sim ila rity       Yess y   Asri 1 ,   Dw ina   K us wa r da ni 2 ,   Am a nd a   At ik a   Sa ri 2 ,   At ik a h Rif da h Ans y a ri 1   1 F a c u l t y   o f   En e r g y   a n d   T e l e ma t i c s,  S t u d y   P r o g r a m I n f o r ma t i o n   S y st e ms,  I n st i t u t e   Te c h n o l o g y   o f   P LN ,   Ja k a r t a ,   I n d o n e s i a   2 F a c u l t y   o f   En e r g y   a n d   T e l e ma t i c s,  S t u d y   P r o g r a m I n f o r ma t i c s E n g i n e e r i n g ,   I n st i t u t e   Te c h n o l o g y   o f   P LN ,   Ja k a r t a ,   I n d o n e si a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Mar   13 ,   2 0 2 4   R ev is ed   No v   5 2 0 2 4   Acc ep ted   No v   11 ,   2 0 2 4       P e rsp e c ti v e o n   tec h n o lo g y   o ften   h a v e   sim il a rit ies   in   c e rtain   c o n tex t s,  su c h   a in fo rm a ti o n   sy ste m a n d   in f o r m a ti c e n g in e e rin g .   T h e   so u rc e   o o p in io n   d a ta  c o m e fro m   th e   Q u o ra   a p p l ica ti o n ,   with   a   re tri e v a li m it   o f   th e   las 5   y e a rs.  Th is  re se a rc h   a ims   t o   imp lem e n t   In d o - b id i re c ti o n a l   e n c o d e re p re se n tatio n fr o m   tran sf o rm e rs  ( BERT ) ,   a   v a rian o t h e   BE RT  m o d e l   o p ti m ize d   f o In d o n e s ian   lan g u a g e ,   in   t h e   c o n tex o in f o rm a ti o n   sy ste m   (IS )   a n d   i n fo rm a ti o n   tec h n o l o g y   (IT to p ic  c las sifica ti o n   with   4 1 4   o ri g in a d a ta,   wh ich ,   a fter  b e in g   a u g m e n te d   u si n g   t h e   sy n o n y m   re p lac e m e n m e t h o d ,   Th e   g e n e ra ted   d a ta  b e c o m e 8 2 8 .   Da ta  a u g m e n tatio n   a ims   t o   e v a lu a te  th e   p e rfo rm a n c e   o m o d e ls  b y   u si n g   s y n o n y m a n d   re a rra n g in g   tex wh i le  m a in tain in g   m e a n in g   a n d   stru c t u r e .   Th e   a p p r o a c h   u se d   is t o   lab e t h e   o p in i o n   tex b a se d   o n   t h e   c o si n e   sim il a rit y   c a lcu latio n   o th e   e m b e d d in g   t o k e n   fro m   th e   In d o B ERT   m o d e l.   T h e n ,   t h e   In d o BERT   m o d e is   a p p li e d   to   c las sify   th e   re v iew s.  Th e   e x p e rime n tal   re su lt s h o th a t   th e   a p p r o a c h   o u sin g   In d o BERT   t o   c las sify   S a n d   IT  to p ics   b a se d   o n   c o n tex tu a sim il a rit y   a c h iev e 9 0 %   a c c u ra c y   b a se d   o n   th e   c o n fu si o n   m a tri x .   Th e se   p o sit iv e   re su lt s   sh o t h e   g re a p o ten ti a o f   u si n g   tran sfo rm e r - b a se d   lan g u a g e   m o d e ls,  su c h   a In d o B ERT ,   to   su p p o r t h e   a n a ly sis  o c o m m e n ts  a n d   re late d   t o p ics   i n   In d o n e sia n .   K ey w o r d s :   Au g m en ted   d ata   C o n tex tu al  s im ilar ity   C o s in s im ilar ity   I n d o B E R T   W o r d   em b ed d in g   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Yess y   Asri   Facu lty   o f   E n e r g y   a n d   T elem a tics ,   Stu d y   Pro g r am   I n f o r m ati o n   Sy s tem s ,   I n s titu te  T ec h n o l o g y   PLN   J ak ar ta   1 1 7 5 0 ,   I n d o n esia   E m ail: y ess y asri@ i tp ln . ac . id       1.   I NT RO D UCT I O N   to p ic  in   th f o r m   o f   an   o p in io n   b ec o m es  r ef er en ce   in   d eter m in in g   ce r tain   in ter ests ,   g o als,  o r   o th er   th in g s .   Ho wev er ,   it  o f te n   s ee m s   co m p licated   an d   co n f u s in g   wh en   to p ics  h av d if f er en ca teg o r ies  in   th s am f ield .   E s p ec ially   in   th tech n o lo g y   ca teg o r y ,   wh ich   h a s   s im ilar itie s   b etwe en   s ev er al  p ar ts ,   s u ch   as  th to p ic  o f   in f o r m atics  en g in ee r i n g   a n d   t h to p ic  o f   in f o r m ati o n   s y s tem s ,   b o th   t o p ics  h a v e   m an y   en th u s iast s ,     b u t f r o m   e n th u s iast s   s u ch   as p r o s p ec tiv s tu d en ts   wh o   h av an   in ter est,  s o m o f   th em   e x p e r ien ce   co n f u s io n   in   u n d er s tan d i n g   th d if f e r en ce s   an d   ap p r o ac h es  o r   s im ilar ities   b etwe en   th to p ics  o f   in f o r m atics  en g in ee r in g   an d   in f o r m atio n   s y s tem s .   So ,   th ey   ten d   to   h a v v ar i o u s   q u e s tio n s   co v er in g   asp ec ts   o f   b o t h   to p ics  b y   wan tin g   an   o p in i o n   o r   o p i n io n   o n   p latf o r m   as a   s o u r ce   o f   i n f o r m atio n .   I n   tex d ata,   it  d o es  n o o n ly   h av o n o r   two   s en ten ce s   b u ca n   f o r m   lo n g   p ar a g r a p h .   f ield   b ec o m es  th e   to p ic   o f   s er ies  o f   s en ten ce s .   Ho wev er ,   d esp it h av in g   th s am f ield ,   t h er e   will  b d if f er e n ce s   in   ca te g o r ies  [ 1 ] .   T h is   ca n   b an aly ze d   ac c o r d i n g   to   th co n tex t.  n u m b e r   o f   d o c u m en ts   ar g iv en   ter m   f r eq u e n cy - in v er s d o cu m en t   f r eq u e n cy   ( TF - I DF )   an d   co s in s im ilar ity   m o d el  ca lcu la tio n s   to   s ee   th eir   s im ilar ity   [ 2 ] .   I n   th is   s co p e,   c o n tex is   th m ain   co n ce r n ,   s o   m o d el  is   n ee d ed   th at   ca n   s e th en tire   c o n tex t   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52       Wo r d   emb ed d in g   f o r   co n textu a l simil a r ity  u s in g   co s in s imil a r ity  ( Yes s A s r i )   1171   o f   s en ten ce   co n s tr u ctio n .   B id ir ec tio n al  en co d e r   r ep r esen t atio n s   f r o m   t r an s f o r m e r s   ( B E R T )   is   o n o f   th tech n iq u es  th at   ca n   b u s ed   i n   th is   p r o ce s s .   B E R T   m o d els  h av e   p r o v en   ef f ec tiv e   in   p er f o r m in g   lan g u ag e   p r o ce s s in g   task s   s u ch   as  s em an tic  tex [ 3 ]   an d   s y n tax   [ 4 ] .   I n   ter m s   o f   lan g u a g e,   I n d o B E R T   is   B E R T   d ev elo p m e n th at  ca n   b u s ed   f o r   I n d o n esian   d ata.   I n   ad d it io n   to   I n d o B E R T   in d icato r s ,   d ata  au g m en tatio n   tech n iq u es  a r also   p er f o r m e d   with   t h aim   o f   e x p an d in g   th e   d ata  t o   h av e   ce r tain   v ar iatio n s .   Me r g in g   is   p er f o r m ed ,   f o llo we d   b y   s eq u e n ce   r an d o m izatio n ,   b ef o r d iv id in g   th tex in to   two   co lu m n s   f o r   tex s im ilar ity   ca lcu latio n   u s in g   co s in s im ilar ity   b y   u tili zin g   wo r d   em b e d d in g   f r o m   I n d o B E R T .   s i m p le  tex s im ilar ity   lab el  is   0   m ea n in g   n o t similar   an d   1   m ea n in g   s im ilar   [ 5 ] .   I n   th er o f   d ig italizatio n ,   th e r ar n u m b e r   o f   p latf o r m s   a s   in f o r m atio n - s o u r cin g   to o ls .   Qu o r is   a   q u esti o n - an d - an s wer   ap p   f o u n d ed   b y   Ad am   D An g elo   a n d   co llea g u e.   T h is   ap p lic atio n   was  in itially     o n ly   av ailab le  in   th E n g lis h   v er s io n u n til  Ap r il  2 0 1 8 ,   Qu o r was  p r esen in   th I n d o n esian     v er s io n   ( h ttp s ://www. id n tim es.c o m /tech /tre n d /m a h d a - len a/ k eu n g g u lan - ap lik asi - q u o r a - c1 c 2 ) .   R ep o r tin g   f r o m   s tatis t ics  b y   th d ir ec to r   o f   p r o d u ct  m an ag em e n t,  Qu o r is   web s ite  an d   ap p licatio n - b ased   p latf o r m   with   a n   ac h iev em en o f   3 0 0   m illi o n   v is ito r s   in   cr ea tin g   s e o f   q u esti o n s   f r o m   v ar io u s   to p ics  p o s ted   b y   u s er s   an d   an s wer s   f r o m   o th e r   u s er s   wh o   h av e   g r ea ter   in s ig h in to   a   to p ic  [ 6 ] [ 7 ] .   Ho wev e r ,   p r o s p e ctiv s tu d en ts   o f ten   h av d if f icu lty   f ilter in g   an d   an aly zin g   Qu o r a   u s er   o p i n io n s   th at  ar e   r elev a n to   th eir   n ee d s .   I n   a d d itio n ,   s o m etim es  wo r k er s   in   t h m a r k etin g   f ield   h a v a   litt le  h ass le  wh en   id e n tify in g   an d   f ilter i n g   th e   in f o r m atio n   o b tain ed ,   s u ch   as   in f o r m atio n   ab o u t h m o s r elev an t   q u esti o n   to p ics  with   in f o r m ativ e   o p i n io n s   r elate d   to   t h d if f er en ce   b etwe en   in f o r m atics  en g in ee r in g   an d   in f o r m atio n   s y s tem s ,   s o   th at  la ter   t h d ata  ca n   b u s ed   as  r ef er en ce   in   p r o m o tio n al  m ater ials   an d   o th er   m ar k etin g   m att er s .   T h er ef o r e,   a n   ef f ec tiv m eth o d   is   n ee d ed   to   an aly ze   th o p in io n s   o f   Qu o r u s er s   to   h elp   in   r ea d in g   t o p i cs  in   th f ield   o f   tec h n o lo g y ,   esp ec ially   b etwe en   th two   to p ics ,   n am ely   in f o r m atics  en g in ee r in g   an d   in f o r m at io n   s y s tem s .   On tech n iq u th at  ca n   b u s ed   is   T r an s f o r m e r s - b ased   n atu r al  l an g u ag p r o ce s s in g   ( NL P)   te ch n iq u e,   s u c h   as  B E R T   [ 8 ] .   Su ch   m o d els  h av e   p r o v e n   to   b v er y   ef f ec tiv e   in   p er f o r m in g   lan g u ag p r o c ess in g   task s   s u ch   as  ca p tu r in g   s y n tax   [ 4 ]   an d   s en ten ce - s em an tic  tex [ 3 ] .   On   lan g u ag b asis ,   B E R T   h as  b ee n   d ev elo p ed   u s in g   th I n d o B E R T   m o d el,   wh ich   is   u s ed   f o r   I n d o n esian   l an g u ag e   d ata.   C las s if icatio n   b y   im p le m en tin g   th I n d o B E R T   m o d el  in   em b ed d in g   I n d o b en c h m ar k   o r   I n d o B E R T   h as  an   ac c u r ac y   lev el  o f   8 7 with   o n lin e   ar ticle  co n ten t   d ata  in   r esear ch   in   t h b u ild in g   o f   i n f o r m atics,  tech n o lo g y ,   an d   s cien ce   ( B I T S)  jo u r n al,   C lick b ait  C las s if icatio n   Mo d el  o n   On lin Ne ws  with   Sem an tic  Similar ity   C alcu latio n   B etwe en   New s   T itle  an d   C o n ten t   [ 1 ] .   I n   t h is   s tu d y ,   th e   au th o r s   p er f o r m ed   tex t   s im i lar ity   an aly s tech n iq u es  u s in g   th I n d o B E R T   m o d el  to   class if y   SI  an d   I T   to p ics  in   c o n tex tu al  s im ilar ity - b ased   o p in io n s .   T h d if f er e n ce   in   th is   s tu d y   lies   in   th la b elin g   u s ed in   th jo u r n al,   n o   lab elin g   is   d o n e,     wh ile  in   th is   s tu d y ,   lab elin g   is   d o n u s i n g   co s in ca lcu latio n s   b y   u tili zin g   em b e d d in g   t o k en s   in   co n tex t u al   ca lcu latio n s .   An o th er   d if f er e n ce   lies   in   th m ea s u r em en t   o f   s im ilar ity   b ein g   lim ited   to   t h titl an d   co n ten o f   o n n ews  s to r y ,   n o th w h o le  n ews  s to r y ,   an d   u s in g   s em an ti cs,  wh ile  th is   r e s ea r ch   d o es  s h u f f le  to   ca lcu late  th s im ilar ity   o f   s en ten ce s   r an d o m ly   in   co n tex t so   t h at  th ac cu r ac y   o f   th m o d el  ca n   b s e en .       2.   RE L AT E R E SE ARCH   I n d o B E R T   was  d ev elo p ed   an d   tr ain ed   s p ec if ically   f o r   th I n d o n esian   lan g u ag s o   th at  it  ca n   p r o v id e   m o r ac c u r ate  r esu lts   in   an aly zin g   tex in   I n d o n esian .   I n   a   s tu d y   en titl ed   click b ait  clas s if icatio n   m o d el  o n   o n lin n ews  with   s em an tic  s im ilar ity   ca lcu latio n   b etwe en   n ews  titl an d   co n ten t   [ 1 ] ,   i n   th class if icatio n   tech n iq u p e r f o r m ed ,   it  was  f o u n d   th at  I n d o B E R T   h ad   an   ac cu r ac y   r ate  in   s em an tic  s im ilar ity   o f   8 7 %.  I n   a   s tu d y   en titl ed   i d en tific atio n   o f   tex t   s im ilar ity   u s in g   class   in d ex in g   b ased   an d   co s in s im ilar ity   f o r   co m p lain d o cu m e n class if icatio n   [ 5 ] ,   u s in g   tex s im il ar ity   id en tific atio n   tech n iq u es  u s in g   class   in d ex in g - b ased   an d   co s in s im ilar ity   m eth o d s   to   class if y   co m p lain d o cu m en ts ,   th ac cu r ac y   o f   th r esear ch   was  8 4 . 1 2 %.  T h e   n ex r esear ch ,   en titl ed   I n d o n esian   n ews  class if icati o n   u s in g   I n d o B E R T   [ 9 ] ,   co n d u cts  n ews  r ec o m m en d atio n s   b ased   o n   r ec o m m en d atio n s   b y   co m p ar i n g   th I n d o B E R T   m o d el  with   XGB.  T h h ig h est  ac cu r ac y   wh e n   im p lem en ti n g   I n d o B E R T   is   9 4 . 5 %.   Fro m   s ev er al   s tu d ies  th at  b ec o m r e f er en ce s   f o r   th is   r esear ch ,   th e   au th o r   u s es  th I n d o B E R T   m o d el  in   m ea s u r in g   tex t   s im ilar ity   w ith   th c o s in m eth o d   o n   co n t ex tu al  s im ilar ity   u s in g   th e   Py th o n   p r o g r am m i n g   lan g u ag e.   I is   k n o wn   t h at  th im p lem en tatio n   o f   th I n d o B E R T   m o d el  in   an aly zi n g   I n d o n esian - b ased   d ata   h as  h ig h   ac cu r ac y   wh en   f in e - tu n in g .   I n   ad d itio n ,   c o s in s im ilar ity ,   as  v ec to r   ca lcu la tio n   f o r   clu s ter in g   b ef o r e   p er f o r m in g   s em an tic   s im ilar ity ,   is   u s ed   t o   m ea s u r e   tex s im ilar ity   in   lan g u ag e   s tr u ctu r a n d   c o n tex t.   T h er ar e   s im ilar ities   f r o m   s ev er al  p r e v io u s   s tu d ies,  n a m ely   u s in g   t h I n d o B E R T   m o d el   f o r   class if icatio n .   T h d if f e r en ce   lies   in   th e   u s e   o f   co n tex tu al  s im ilar ity ,   wh i ch   p r o d u ce s   lab elin g   f r o m   th r esu lts   o f   co s in e   ca lcu latio n s   in   tex s im ilar ity   an aly s is .   I n   th is   r esear ch   lead s   to   tex s im ilar ity   an aly s is   f o r   n ew  d ata  co n tain in g   o p i n io n s   with   two   t o p ics,  n am ely   th e   to p ic   o f   in f o r m atics  en g in ee r i n g   a n d   th to p ic  o f   in f o r m atio n   s y s tem s ,   b y   u tili zin g   th au g m en tati o n   p r o ce s s   to   ex p an d   th d ataset  wh ich   th en   s h u f f les  th d ata  to   p r o d u ce   r an d o m   s eq u e n ce   as  r ef e r e n ce   th at  th d ata  is   n o th e   s am as  th r esu lts   o f   a u g m en tat io n   wh en   s ep ar atin g   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   I n d o n esian   J   E lec  E n g   &   C o m p   Sci ,   Vo l.  38 ,   No .   2 May   20 25 1 1 7 0 - 1 1 8 0   1172   in to   two   co lu m n s   with   th co l u m n   n am es tex t 1   an d   tex t 2 ,   c o s in s im ilar i ty   f o r   th p r o ce s s   o f   ca lcu latin g   tex t   s im ilar ity   with   th a im   o f   lab elin g   wh ich   u tili ze s   em b ed d in g   to k en s   f r o m   I n d o B E R T ,   im p lem en tatio n   o f   th e   I n d o B E R T   m o d el  in   to p ic  clas s if icatio n ,   an d   b i n ar y class   co n f u s io n   m atr ix   as m o d el  test in g .   B ased   o n   [ 8 ] ,   s em an tic  la b elin g   is   th e   p r o ce s s   o f   m a p p in g   attr ib u tes  in   d ata  s o u r ce s   t o   o n to lo g y   class es   as  an   im p o r tan s tep   wh en   in teg r atin g   h eter o g en e o u s   d ata.   I n   th r esear ch   Sem an tic  L ab elin g A   Do m ain - I n d ep en d en Ap p r o a ch ,   s im ilar ity   m etr ics  ar a p p r o ac h ed   as  co m p ar is o n   f ea tu r f o r   lab ele d   d o m ain   d ata.   I is   ex p lain ed   th at  in   s em an tic  lab elin g ,   attr ib u te  v alu es  h av an   im p o r tan r o le  in   id en tific atio n   with   th s am s em an tic  ty p e.   T h s im ilar ity   ap p r o ac h   ca r r ie d   o u t   in   th e   s tu d y   h as  d if f e r en m etr ics,   in clu d in g   J ac ca r d   s im ilar ity   as a   m o d if ic atio n   f o r   n u m e r ical  v alu es a n d   T F - I DF f o r   tex tu al  d ata.   C o s in s im ilar ity   is   co m m o n   m eth o d   t o   p e r f o r m   d ata   s im ilar ity ,   as  in   th e   jo u r n al  i m p r o v i n g   p atien clu s ter in g   b y   in c o r p o r atin g   s tr u ctu r ed   lab el  r elatio n s h i p s   in   s im ilar ity   m ea s u r es   [ 9 ] ,   wh ich   u s es  co s in s im ilar ity   to   cla s s if y   p atien s im ilar ity .   T h u s o f   I n d o B E R T   is   d o n wh en   th av ailab le  d ata  u s es   I n d o n esian   [ 1 0 ] .   T h is   is   b ec au s I n d o B E R T   is   s p ec ially   tr ain ed   f o r   I n d o n esian ,   as sh o wn   i n   F i g u r e   1   [ 11 ] .           F i g u r e   1 .   I n d o NL b en ch m ar k       F i g u r e   1   s h o ws  th ty p e   o f   i n d o b e n ch m ar k .   T h e   p ar am ete r s   in   th r esear ch   ad j u s th m o d el  ty p e   an d   d ata  s ize.   I n   th is   r esear ch ,   lab elin g   is   d o n with   th tex s im ilar ity   m eth o d ,   n am el y   co s in s im ilar ity ,   wh ich   u tili ze s   wo r d   em b e d d in g   f r o m   th in d o B E R T   m o d el  an d   th en   p e r f o r m s   class if icatio n   b ased   o n   co n tex tu al  s im ilar ity   [1 2 ] ,   [ 1 3 ]   u s in g   th m o d el.   Pre v io u s ly ,   th d ata  will  b ex p an d ed   u s in g   th d ata  au g m en tatio n   m eth o d ,   n am el y   s y n o n y m   r e p lace m en t,  to   p er f o r m   v ar iatio n s   s o   as  to   e m p h asize  th m o d el   p r o v id i n g   wo r d   em b e d d in g   an d   co s in s im ilar ity ,   ca lcu l atin g   s im ilar it y   in   d ata  th at  h as b ee n   v ar ied .     2 . 1 .     T ex t   s im ila rit y   T ex t similar ity   is   th m ea s u r em en t o f   tex t similar ity ,   wh ich   is   th b asis   o f   NL P   task s .   T ex t similar ity   is   d ef in ed   as  th e   s im ilar ity   b e twee n   two   tex ts .   No o n ly   t h a t,  tex s im ilar ity   als o   co n s id er s   b r o a d er   c o n tex p er s p ec tiv in   an aly zin g   th s em an tic  p r o p er ties   o f   two   wo r d s   [1 4 ] .   T h m eth o d   o f   m ea s u r in g   tex s im ilar ity   in v o lv es two   asp ec ts ,   in clu d in g :     2 . 1 . 1 .   T ex t   d is t a nce   T h er ar t h r ee   way s   o f   m ea s u r in g   te x d is tan ce   b ased   o n   l en g th ,   d is tr ib u tio n ,   a n d   s em an tic  o b jects,  o n o f   wh ic h   is   co s in d is tan ce .   T h co s in m ea s u r em e n m ea s u r es  th co s in an g le  b et wee n   th two   tex ts .   J u d g in g   f r o m   th co s in o f   0 °  b ein g   1   an d   th co s i n o f   9 0 °   b ein g   0 ,   th s im ilar ity   v alu lies   in   th n u m b er s     - 1   to   1 ,   wh er th co s in m ea s u r is   r elate d   to   o r ien tatio n .   A s   os in   th f o llo win g   f o r m u la   [1 4 ] :      =     . | | | | . | | | |     = 1 ( ) 2 1 ( ) 2 1         2 . 1 . 2 .   T ex t   r epre s ent a t io n   T ex r ep r esen tatio n   p er f o r m s   ca lcu latio n s   d ir ec tly   as  n u m e r ical  f ea tu r es  th at  ar s im ilar   in   lex ical  an d   s em an tic  way s .   L ex ical  s im ilar ity   is   d o n th r o u g h   d if f er en m ea s u r em en ts ,   wh ile  s em an tic  s im ilar ity   is   in tr o d u ce d   th r o u g h   s tr in g - b ased ,   co r p u s - b ased ,   s em an ti tex m atch in g ,   an d   g r ap h   s tr u ctu r e - b ased     Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52       Wo r d   emb ed d in g   f o r   co n textu a l simil a r ity  u s in g   co s in s imil a r ity  ( Yes s A s r i )   1173   m eth o d s   [1 4 ] T ex s im ilar ity   r esear ch   o f ten   u s es  th co s in s im ilar ity   f o r m u la  b ec au s it  p r o v id es  in tu itiv in ter p r etatio n s   an d   v alu es,  wh ich   r an g b etwe en   - 1   an d   1 .   T h f o r m u la   is   s ca le - co n s is ten t,  wh er v alu es  clo s e   to   1   ar in ter p r eted   as  h ig h   d eg r ee   o f   s im ilar ity ,   wh ile  v alu es  clo s to   - 1   in d icate   d is s im ilar ity .   I n   th co n tex o f   tex s im ilar ity   r ese ar ch   o n   d o c u m en d ata,   co s in s im ila r ity   al s o   s h o ws  r o b u s t n ess   to   d im en s io n al  d if f er en ce s ,   d em o n s tr atin g   th e   f lex ib le  n atu r th at  m ak es it c o m m o n l y   u s ed .   C o s in s im ilar ity   ca n   b c o n s i d er ed   a   tex s im ilar ity   ca lcu la tio n   tech n iq u in   th f r am ewo r k   o f   tex t   r ep r esen tatio n ,   with   a   f o c u s   o n   th e   c ateg o r y   o f   s em an tic  te x m atch in g   to   ass ess   th s im ilar ity   b etwe en   tex t   an d   d o cu m en ts .   I n   ad d r ess in g   th co m p lex ity   o f   s en ten c m ea n in g   an d   v ec to r   r ep r es en tatio n s   th at  tak e     in to   ac co u n in ter - wo r d   an d   co n tex tu al  r elatio n s h ip   p att er n s ,   th B E R T   m o d el  is   r elev an ch o ice.     T h co m b in atio n   o f   co s in s im ilar ity   ca lcu latio n   with   th e   u s o f   em b ed d i n g   to k en s   f r o m   th I n d o B E R T   m o d el  is   ch o s en   as  m eth o d   f o r   co n tex tu al  s im ilar ity - b as ed   lab elin g ,   co n s id er in g   th co m p lex ity   o f   d ata   ar is in g   f r o m   th r elatio n s h ip   b et wee n   s en ten ce s   to   f o r m   p ar a g r ap h s .     2 . 2 .     B idi re ct io na l e nco der  re presenta t io ns   f ro m   t ra ns f o r m er s   ( B E RT )   B E R T   i s   th latest  NL P   alg o r ith m   d ev el o p ed   b y   Go o g le .   I was  f ir s in tr o d u ce d   b y   Go o g le  AI   r esear ch er s   in   2 0 1 8 .   B E R T   u tili ze s   th tr an s f o r m er   m o d el  in   lear n in g   co n tex tu al  r elatio n s h ip s   b etwe en   wo r d s   in   tex t,  wh er th tr an s f o r m er   h as  two   m ec h an is m s ,   n a m ely   en co d e r   an d   d ec o d e r .   H o wev er ,   B E R T   o n ly   r eq u ir es  an   en c o d er .   B E R T   u s es  b id ir ec tio n al  ap p r o ac h   an d   p er f o r m s   s eq u en tial  r ea d in g   o f   tex in p u ts ,   allo win g   th m o d el   to   lear n   t h co n te x o f   wo r d s   b ased   o n   th s u r r o u n d in g   wo r d s .   I n   th en co d er   in p u t,   th e   s eq u en ce   o f   to k en s   will  b em b ed d e d   in to   v ec to r ,   wh ich   will  th en   b p ass ed   o n   to   th e   n eu r al  n etwo r k   an d   o u tp u v ec to r   an d   g e n er ated   ac co r d in g   to   th in p u [1 5 ] .   Fig u r 2   s h o ws o f   B E R T   ar ch itect u r e.   Fig u r 2   s h o ws  B E R T   u tili ze s   t h T r an s f o r m er   ar c h itectu r to   lear n   co n tex tu al  r e latio n s h ip s   b etwe en   wo r d s   in   a   tex t.  T r a n s f o r m er s   h av two   m ec h a n is m s an   en c o d er   an d   d ec o d e r .   Ho wev er ,   B E R T   o n ly   h as a n   e n co d e r   m ec h a n is m   th at  tak es a   b id ir ec tio n al  a p p r o ac h   a n d   r ea d s   tex t in p u t se q u en ti ally ,   allo win g   th m o d el  to   lear n   c o n tex b a s ed   o n   s u r r o u n d in g   wo r d s .   B E R T   h as  B E R T - b ase  with   as  m an y   as  1 2   en c o d er   lay er s ,   7 6 8   h id d en   n o d es,  1 2   atten tio n   h ea d s ,   an d   ab o u 1 1 0 , 0 0 0 , 0 0 0   p ar a m eter s ,   an d   B E R T - lar g with   as   m an y   as 2 4   en co d er   lay er s ,   1 0 2 4   h id d e n   n o d es,  1 6   atten tio n   h ea d s ,   an d   a b o u 3 4 0 , 0 0 0 , 0 0 0   p ar am eter s   [ 3 ] .   T o k en   em b e d d in g   in   th co n t ex o f   B E R T   r ef er s   to   th n u m er ical  v ec to r   r ep r esen tatio n   o f   to k en   g en er ated   b y   B E R T   m o d el.   B E R T   is   o n o f   th t r an s f o r m er   a r ch itectu r es  th at  h as  p r o v e n   to   b v er y   ef f ec tiv in   n at u r al  lan g u ag u n d er s tan d i n g   task s ,   s u ch   as  q u esti o n   u n d er s tan d in g ,   lan g u ag tr an s latio n ,   an d   o th er   task s .   Fig u r 3   s h o ws  o f   em b ed d in g   to k e n   B E R T   [1 6 ] .   So m d etailed   p o in ts   ab o u t o k en   e m b ed d in g   in   B E R T   in clu d to k en izatio n ,   e m b ed d in g   lay e r s ,   p o s itio n   em b ed d in g s ,   s eg m en e m b ed d in g s ,   f in e - tu n in g ,   an d   b id ir ec tio n al  co n tex t.  E m b ed d in g   to k en s   in   B E R T   p r o v id es  r ich   an d   co n tex t u al  r ep r esen tatio n   f o r   ea c h   wo r d   o r   s u b wo r d   in   th te x t,  a llo win g   th m o d el  to   b etter   co p with   n atu r al  lan g u ag e   u n d e r s tan d in g   task s .           Fig u r e   2 B E R T   a r ch itectu r e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   I n d o n esian   J   E lec  E n g   &   C o m p   Sci ,   Vo l.  38 ,   No .   2 May   20 25 1 1 7 0 - 1 1 8 0   1174       Fig u r e   3 E m b ed d in g   t o k en   B E R T       3.   M E T H O D   Fig u r 4   illu s tr ates  th wo r k f l o m eth o d o lo g y   f o r   em b ed d i n g   wo r d   f o r   co n tex t u al  s im ilar ity   u s in g   co s in s im ilar ity .   I n   th f ir s s tag e,   in f o r m atio n   is   s ea r ch ed   o n   o p in io n   d ata  o n   th t o p ic  o f   in f o r m atics  en g in ee r in g   an d   in f o r m atio n   s y s tem s   o n   th Qu o r a   p latf o r m .   Data   r etr ie v al  in   th is   s tu d y   u s es  s am p lin g   tech n iq u ca lled   s im p le  r an d o m   s am p lin g ,   wh er e   d ata  i s   tak en   f r o m   th e   two   r eq u i r ed   to p ics,  n am ely   in f o r m atics  en g i n ee r in g   an d   i n f o r m atio n   s y s tem s ,   an d   f r o m   b o th   to p ics  will  h av e   n u m b er   o f   d ata  f r o m   t h two   to p ics  in   th s am d ata  s o   th at  it  o n ly   h as  o n o p in io n   c o lu m n   th at  will  b u s ed   in   th n ex s tag o f   d ata   p r ep ar atio n .   Fu r t h er m o r e,   th e   d ata  p r ep ar atio n   p r o ce s s   in clu d es  web   s cr ap i n g ,   d ata  p r e - p r o ce s s in g ,   d ata   lab elin g ,   an d   d ata   s p litt in g   f o r   m o d elin g   u s ed   in   t h r esear ch .   I n   o n o f   s tep ,   th e r h a v e   s tep   f o r   th em s elf .   Fig u r 5   s h o ws  th d ata  p r e p ar atio n   wo r k f lo w   an d   F ig u r 6   s h o ws  ab o u d ata  p r ep r o ce s s in g   wo r k f lo w[ 1 7 ] .     Fig u r 6   s h o ws  th e   p r e - p r o ce s s in g   d ata  wo r k f lo w [ 1 8 ] .   Af ter   o b tain in g   o p in io n   d ata   f r o m   t h two   t o p ics  th at   will  b th o b ject  o f   r esear ch ,   t h en ,   d ata  p r e - p r o ce s s in g   in clu d es  ca s f o ld in g ,   d elete d   u n iq u ch ar ac ter s ,   s lan g   wo r d s ,   an d   to k e n izatio n   b y   ad d i n g   s tep   to   r em o v n u m b er s   th at  ar n o   lo n g er   n ee d ed .           Fig u r e   4 T h r esear ch   w o r k f l o w   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52       Wo r d   emb ed d in g   f o r   co n textu a l simil a r ity  u s in g   co s in s imil a r ity  ( Yes s A s r i )   1175           Fig u r e   5 Data   p r ep ar atio n   wo r k f lo w   Fig u r 6 T h p r e - p r o ce s s in g   d ata  wo r k f l o w       4.   RE SU L T S AN D I SCU SS I O N   Data   au g m en tatio n   is   co llec tio n   o f   alg o r ith m s   th at  cr ea te  s y n th etic  d ata  b y   m a k in g   s m a ll  ch an g es  to   ex is tin g   d ata,   aim in g   to   ex p an d   th am o u n o f   tr ain in g   d ata  in   d ee p   n eu r al  n etwo r k   lear n in g   [1 4 ] [1 6 ] T h is   te ch n iq u is   u s ef u f o r   o b s er v in g   m o d el  f ailu r es  an d   im p r o v i n g   th eir   p er f o r m a n ce .   Data   au g m en tatio n   is   an   im p o r tan s tep   in   m o d el  tr a in in g ,   h el p in g   t o   o v er co m e   th lim itatio n s   o f   lim ited   d ata.   I is   also   co n s id er ed   co s t - ef f icien way   to   in cr ea s d ata  s ize,   r ed u ce   tr ain in g   er r o r s ,   an d   p r o d u ce   m o r ac cu r ate  p r ed ictio n s .   Ma n y   m ac h in e   lear n in g   p r o jects r ely   o n   d ata  a u g m e n tatio n   a s   th eir   cr itical  s u cc ess   f ac to r   [1 8 ] .   T h e r ef o r e,   d ata  au g m en tatio n   m eth o d   is   p er f o r m e d   to   p er f o r m   s en ten ce   v ar iatio n   u s in g   s y n o n y m   r ep lace m en t.  I n   d o in g   s o ,   r a n d o m   wo r d   will  b e   s ea r ch ed   an d   ch an g e d   in to   an o th er   w o r d   th at  h as  th s am m ea n in g .   Ho wev er ,   th e   p r o ce s s   d o es  n o t   in v o lv w o r d s   th at  a r ca te g o r ized   as  s to p wo r d s .   I n   th e   ch an g ed   wo r d ,   it  is   p o s s ib le  f o r   th em b ed d in g   wo r d   to   h a v d if f er en n u m b er   v al u f r o m   th ac tu al  wo r d .     T h r esu lts   will  b e   co m b in ed   with   th e   d ata   b ef o r th e   ch a n g es  ar e   m ad e,   an d   to   ad d   to   th im p r o v em en t ,   r an d o m iza tio n   o f   th o r d e r   wi ll  b ca r r ied   o u t   s o   th at  t h d i v is io n   o f   th two   c o lu m n s   wil n o h a v th e   s am s en ten ce ,   alth o u g h   it is   p o s s ib le  to   h av s im ilar   p o s itio n s   in   r an d o m izatio n .   I n   th am o u n t o f   4 1 4   d ata,   it is   s til l r elativ ely   s m all  f o r   th u s o f   s er ies o f   d ee p   lear n in g   p r o ce s s es;  th er ef o r e,   d ata  au g m en tatio n   i s   ca r r ied   o u u s in g   th s y n o n y m   r ep lace m en tech n iq u e,   wh i ch   tak es  o n wo r d   at  r an d o m   a n d   r ep lace s   it with   th s am s en ten ce   wh er th s en ten ce   is   in   th eq u atio n   co n tain ed   in   W o r d Net.   T h p r o ce s s   ca n   b s ee n   in   Fig u r 7 ,   with   t h r esu lt in   Fig u r e   8 .               Fig u r 7 .   So u r ce   co d o f   s y n o n im   r ep lacm en t   Fig u r 8 R esu lt o f   s eg m e n tatio n   d ata   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   I n d o n esian   J   E lec  E n g   &   C o m p   Sci ,   Vo l.  38 ,   No .   2 May   20 25 1 1 7 0 - 1 1 8 0   1176   Af ter   au g m en tin g   th d ata  s o   th at  it  h as  8 2 8   s en ten ce s   wh er th d ata  is   in d ir ec tly   s eq u en tial  wh en   p er f o r m in g   th m er g co m m an d ,   r an d o m izatio n   is   p er f o r m ed   o n   th d ata  to   av o id   s im ilar ities   b etwe en   s en ten ce s   f r o m   th e   o r ig i n al  d ata  an d   s en ten ce s   f r o m   th a u g m en ted   d ata  t h at  will  b e   ca l cu lated .   Fig u r 9   is   th r esu lt  o f   th d ata  s h u f f le.   B ef o r p er f o r m in g   ca lc u latio n s   u s in g   I n d o B E R T   o n   m ea s u r in g   tex s im ilar ity   with   co s in e,   th d ata  is   d i v id e d   in to   two   c o lu m n s ,   n a m ely   te x t 1   an d   tex t 2 ,   wh ich   ca n   b s ee n   in   Fig u r 1 0 .           Fig u r 9 .   R esu lt o f   s h u f f le  d at a           Fig u r 1 0 .   Div is io n   r esu lts   in to   two   co lu m n s       T h n e x s tep   is   d ata  la b elin g   b ased   o n   co s in e   s im ilar ity   ca lcu latio n s .   C o s in s im ilar ity   p r o v id es  lab elin g   b y   ca lcu latin g   th s im ilar ity   o f   o p in io n   d ata  o n   th in f o r m atio n   en g in ee r in g   lab el  an d   th in f o r m atio n   s y s tem s   lab el  af t er   ca lcu latin g   t h s im ilar ity   b etwe en   th two   tex t   co lu m n s .   T h en   t h lab elin g   u s es  th av er ag v alu as  th r esh o ld   to   p r o d u ce   b alan ce d   d ata,   b ec au s if   y o u   u s th r esh o ld   b ased   o n   th e   h ig h est  o r   lo west  v alu e ,   it  wi ll  r esu lt  i n   a   to tal  o f   o n e   lab el  h av in g   h u n d r ed s   m o r d at th an   o th er   lab els,  wh ich   o n ly   h av ten s   o f   th o u s an d s   o f   d ata  p o in ts .   T h lab eli n g   s tates  th at  0   i s   n o s im ilar ,   wh ile  1   is   s im ilar .   Fig u r 1 1   s h o ws o f   th lab elli n g   p r o ce s s .           Fig u r 1 1 .   L ab ellin g   p r o ce s s   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52       Wo r d   emb ed d in g   f o r   co n textu a l simil a r ity  u s in g   co s in s imil a r ity  ( Yes s A s r i )   1177   Data   lab elin g   is   b ased   o n   c o s in s im ilar ity   ca lcu latio n s ,   wh i ch   ca n   b e   s ee n   in   Fig u r es  1 2   an d   1 3   f o r   th r esu lts   o f   s ea r ch in g   f o r   th h ig h est,   lo west,  an d   av e r ag e   v alu es.   T h en   th la b elin g   u s e s   th av er a g v alu as  th r esh o ld   to   p r o d u ce   b ala n ce d   d ata,   b e ca u s if   y o u   u s th r esh o ld   b ased   o n   th h ig h est  o r   lo west  v alu e,   it  will  r esu lt  in   to tal  o f   o n e   lab el  h av in g   h u n d r ed s   m o r d ata  th an   o th er   la b els,  wh ich   o n ly   h av te n s   o f   th o u s an d s   o f   d ata  p o in ts .   T h e   lab elin g   s tates  th at  0   is   n o t   s im ilar ,   wh ile  1   is   s im ilar .   T h e   lab elin g   r esu lts   ca n   b s ee n   in   F ig u r e   1 4 .           Fig u r 1 2 .   C o s in s im ilar ity   r esu lt           Fig u r 1 3 .   Sear ch   f o r   h ig h est,  lo west ,   an d   av er a g v alu es o f   co s in v alu es             Fig u r 14 .   Data   lab elin g   r esu lt s       Af ter   co s in s im ilar ity   m ea s u r em en u tili zin g   I n d o B E R T   wo r d   em b ed d in g   as   lab elin g ,   th e   I n d o B E R T   m o d el  is   u s ed   to   p er f o r m   co n tex tu al  s im ilar ity - b ased   class if icat io n .   I n   th is   s tu d y ,   th d ata  s h ar in g   in d ex   was  8 0 :1 0 :1 0 ,   with   tr ain in g   d ata  b ein g   8 0 %,  wh ile  v al id atio n   d ata   an d   test in g   d ata  w er 1 0 ea ch .   T h e   f lo o f   th I n d o B E R T   m o d el   r eq u ir es   tr ain in g   d ata,   an d   v a lid atio n   d ata   will  b at   th B e r tTo k en izer   m o d el  s tag b y   h av in g   v ar io u s   p ar am eter s   th at  s u p p o r t   th p r o ce s s ,   in clu d in g   m ax _ len g th   1 2 8 ,   b atch _ s ize  3 2 ,     ep o ch   5 ,   an d   lear n in g   r ate  1 e - 5 .   M o d el  s ize  an d   t h n u m b er   o f   p a r am eter s   g iv a n   in d icatio n   o f   th e   co m p lex ity   an d   m em o r y   r e q u i r em en ts   o f   m o d el.   Mo d els  with   lar g n u m b er   o f   p ar am eter s   ten d   to   r eq u ir e   m o r co m p u tatio n al  r eso u r ce s   an d   m em o r y .   T h is   in f o r m atio n   is   u s ef u f o r   ev alu atin g   w h eth er   th e   m o d el  is   s u itab le  f o r   u s o n   r eso u r ce - co n s tr ain ed   d ev ices.  B y   u n d e r s tan d in g   th s ize  an d   co m p l ex ity   o f   th m o d el,   d ec is io n s   r eg ar d in g   th e   im p l em en tatio n   a n d   u s o f   th e   m o d el  ca n   b e   b etter   co n s id er e d ,   esp ec ially   i n   th e   co n tex t o f   r eso u r ce   co n s tr ain ts   o n   th d ev ice.   T h n ex t   s tag is   f in e - tu n in g ,   ad j u s tin g   th f ea tu r r ep r esen tatio n   th at   alr ea d y   ex is ts   in     B E R T   [1 9 ] [ 21 ]   ac c o r d i n g   to   th ch a r ac ter is t ics  o f   th d ata s et.   Af ter   g o in g   th r o u g h   th e   m o d el  tr ain i n g   s tag e   u s in g   tr ain in g   d ata  a n d   v alid atio n   d ata,   th e   n ex t   s tep   is   to   test   th m o d el   with   test in g   d ata.   W h en   m ak in g   p r ed ictio n s   o n   test in g   d ata,   t h m o d el  will  p r o d u ce   p er ce n tag p r o b ab ilit y   o f   co n f id en ce   r elate d   to   th e   p r ed ictio n s   m ad e.   T h e   h ig h er   th p r o b ab ilit y   g iv en   b y   th e   m o d el,   th e   m o r c o n f i d en t h m o d el  is   i n   its   p r ed ictio n   r esu lts .   T h is   p r o ce s s   p r o v id es  in s ig h in to   t h m o d el s   lev el  o f   co n f id en ce   i n   th p r ed ictio n   r esu lts   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 52   I n d o n esian   J   E lec  E n g   &   C o m p   Sci ,   Vo l.  38 ,   No .   2 May   20 25 1 1 7 0 - 1 1 8 0   1178   g iv en   o n   d ata  t h a was  n o u s ed   d u r in g   th e   tr ain in g   an d   v al id atio n   p r o ce s s es.  T h er e   is   p r o b a b ilit y   co lu m n   f o r   th p e r ce n tag e   o f   co n f id e n ce   th at  t h m o d el  p lace s   th e   tex in   th at  ca teg o r y .   T h e   co n f u s io n   m atr ix   is   a   tech n iq u th at   is   o f ten   u s ed   in   th class if icatio n   o f   m o d el   r esu lts   b ased   o n   s tim u lated   o b jects  [ 22 ] ,   [ 2 3 ]   T h co n f u s io n   m atr i x   p er f o r m ed   is   ty p o f   b in ar y   class   co n f u s io n   m atr ix .   Fig u r 1 5   is   an   im ag o f   th e   p lace m en o f   th b in a r y   class   co n f u s io n   m atr ix   [ 6 ] ,   [ 16 ] ,   [ 22 ] ,   [ 2 4 ] ,   [ 2 5 ] ,   a n d   Fig u r 1 6   is   th r esu lt  o f   th e   co n f u s io n   m atr ix   f r o m   t h r e s ea r ch .   T h e   ev alu atio n   o f   th e   m o d el   in   th is   r esear ch   u s es  co n f u s io n   m atr ix ,   wh ich   will  ca lcu late  ac cu r a cy   v alu es  in   th tex s im ilar ity   an aly s is   f o r   th class if icatio n   th at  h as  b ee n   ca r r ie d   o u t.  Fro m   t h co n f u s io n   m at r ix ,   th ac cu r ac y   v al u o f   I n d o B E R T   is   9 0 %.           Fig u r 1 5 .   C o n f u s s io n   m atr ix           Fig u r 16 .   C o n f u s s io n   m atr ix   r esu lt       5.   CO NCLU SI O N   B ased   o n   th r esu lts   o f   th r esear ch   an d   d is cu s s io n ,   it  ca n   b c o n clu d ed   th at   th d ata   s im ilar ity   an aly s is   p r o ce s s   co n s is ts   o f   d a ta  co llectio n ,   d ata   p r e - p r o ce s s in g ,   d ata   au g m e n tatio n ,   ca lcu l atin g   th s im ilar ity   o f   tex in   th e   d ata,   lab elin g   t h d ata  ac co r d in g   t o   th av e r ag v alu o f   th r esu lts   o f   th co s in s im ilar ity   ca lcu latio n ,   wh ich   will  b ec o m th th r esh o ld ,   T h ca lcu la tio n   o f   tex s im ilar ity   b ec o m e s   lab elin g   with   two   lab els,  n am ely   lab el  0   is   n o s im ilar   wh ile  lab el  1   i s   s i m ilar   lab el.   I n   th I n d o B E R T   m o d el,   lab el  0   is   r ep r esen ted   as  an   I to p ic  cl ass if icatio n   an d   lab el  1   as  an   I T   lab el  class if icatio n .   I n   th is   r esear ch ,   it  was   co n clu d e d   th at  th I n d o B E R T   m o d el  h a d   ca lcu latio n   ac c u r a cy   r esu lts   u s in g   co n f u s io n   m atr ix   wo r th   9 0 in   ca lcu latio n s   an d   u n d er s tan d in g   o f   co n te x tu al  tex b ec au s it  h ad   b ee n   tr ain ed   s p ec if ically   f o r   d ata  i n   I n d o n esian .   I n   o r d er   to   p er f ec th r esu ltin g   tex s im ilar ity   an aly s is ,   th er ar s ev er al  s u g g esti o n s ,   in clu d in g   ad d in g   G o o g le  T r an s late  to   t h p r o g r am m i n g   b ef o r e   d o in g   s la n g   wo r d s   f o r   s ev er al  w o r d s   in   s en ten ce s   th at  u s f o r eig n   lan g u ag es  s o   t h at  it  ca n   im p r o v c o n tex t   ca lcu latio n s ,   an d   it  is   h o p ed   th at  d if f er en t   I n d o b en ch m a r k s   will  b u s ed ,   s u ch   as  I n d o B E R T L ite  o r   I n d o B E R T L ar g in   ty p e   in d o b e n ch m ar k - p 1   o r   t y p e   in d o b e n ch m ar k - p 2 .       ACK NO WL E DG E M E NT   Ou r   d ee p est  g r atitu d e   g o es  to   th I n s titu te  f o r   C o m m u n ity   S er v ice  R esear ch   ( L PP M)   o f   th I n s titu te   T ec h n o lo g y   o f   PLN  f o r   f u n d in g   th co m m u n ity   s er v ice  ac tiv ities   f o r   f is ca l y ea r   2 0 2 3 .       RE F E R E NC E S     [ 1 ]   H .   A .   A h m a d i   a n d   A .   C h o w a n d a ,   C l i c k b a i t   c l a ssi f i c a t i o n   m o d e l   o n   o n l i n e   n e w s   w i t h   s e ma n t i c   si mi l a r i t y   c a l c u l a t i o n   b e t w e e n   n e w t i t l e   a n d   c o n t e n t ,   B u i l d i n g   o f   I n f o rm a t i c s ,   T e c h n o l o g y   a n d   S c i e n c e   ( BI T S ) ,   v o l .   4 ,   n o .   4 ,   M a r .   2 0 2 3 ,     d o i :   1 0 . 4 7 0 6 5 / b i t s. v 4 i 4 . 3 0 3 0 .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2 5 0 2 - 4 7 52       Wo r d   emb ed d in g   f o r   co n textu a l simil a r ity  u s in g   co s in s imil a r ity  ( Yes s A s r i )   1179   [ 2 ]   L.   S a h u   a n d   B .   R .   M o h a n ,   A n   i mp r o v e d   K - mea n a l g o r i t h u si n g   m o d i f i e d   c o si n e   d i st a n c e   mea s u r e   f o r   d o c u me n t   c l u s t e r i n g   u si n g   M a h o u t   w i t h   H a d o o p ,   2 0 1 4   9 t h   I n t e r n a t i o n a l   C o n f e r e n c e   o n   I n d u st ri a l   a n d   I n f o rm a t i o n   S y s t e m ( I C I I S ) ,   G w a l i o r ,   I n d i a ,   2 0 1 4 ,   p p .   1 - 5 ,   d o i :   1 0 . 1 1 0 9 / I C I I N F S . 2 0 1 4 . 7 0 3 6 6 6 1 .   [ 3 ]   J.  D e v l i n ,   M . - W .   C h a n g ,   K .   Le e ,   K .   T.   G o o g l e ,   a n d   A .   I .   La n g u a g e ,   B E R T:   p re - t r a i n i n g   o f   d e e p   b i d i r e c t i o n a l   t r a n sf o r mers   f o r   l a n g u a g e   u n d e r st a n d i n g ,   N a a c l - Hl t   2 0 1 9 ,   p p .   4 1 7 1 4 1 8 6 ,   2 0 1 8 .   [ 4 ]   G .   Jawa h a r ,   B .   S a g o t ,   a n d   D .   S e d d a h ,   W h a t   d o e B E R l e a r n   a b o u t   t h e   st r u c t u r e   o f   l a n g u a g e ? ,   i n   A C L   2 0 1 9   -   5 7 t h   An n u a l   Me e t i n g   o f   t h e   As so c i a t i o n   f o C o m p u t a t i o n a l   L i n g u i s t i c s,   Pr o c e e d i n g o f   t h e   C o n f e re n c e ,   2 0 2 0 ,   p p .   3 6 5 1 3 6 5 7 ,     d o i :   1 0 . 1 8 6 5 3 / v 1 / p 1 9 - 1 3 5 6 .   [ 5 ]   J.  Y e ,   I mp r o v e d   c o s i n e   si m i l a r i t y   mea s u r e s   o f   si mp l i f i e d   n e u t r o s o p h i c   se t f o r   me d i c a l   d i a g n o ses ,   Art i f i c i a l   I n t e l l i g e n c e   i n   Me d i c i n e ,   v o l .   6 3 ,   n o .   3 ,   p p .   1 7 1 1 7 9 ,   2 0 1 5 ,   d o i :   1 0 . 1 0 1 6 / j . a r t me d . 2 0 1 4 . 1 2 . 0 0 7 .   [ 6 ]   Z.   I mt i a z ,   M .   U m e r ,   M .   A h m a d ,   S .   U l l a h ,   G .   S .   C h o i ,   a n d   A .   M e h m o o d ,   D u p l i c a t e   q u e s t i o n p a i r   d e t e c t i o n   u s i n g   s i a m e se   M a LS TM ,   I E EE  Ac c e ss ,   v o l .   8 ,   p p .   2 1 9 3 2 2 1 9 4 2 ,   2 0 2 0 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 0 . 2 9 6 9 0 4 1 .   [ 7 ]   E.   U z u n ,   n o v e l   w e b   scra p i n g   a p p r o a c h   u si n g   t h e   a d d i t i o n a l   i n f o r mat i o n   o b t a i n e d   f r o m   w e b   p a g e s,   i n   I EEE  A c c e ss ,     v o l .   8 ,   p p .   6 1 7 2 6 - 6 1 7 4 0 ,   2 0 2 0 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 0 . 2 9 8 4 5 0 3 .   [ 8 ]   A .   V a sw a n i   e t   a l . A t t e n t i o n   i s   a l l   y o u   n e e d ,   i n   3 1 st   C o n f e re n c e   o n   N e u r a l   I n f o rm a t i o n   Pr o c e ss i n g   S y st e m ( N I PS   2 0 1 7 ) 2 0 1 7 ,   p p .   5 9 9 9 6 0 0 9 .   [ 9 ]   B .   Ju a r t o ,   I n t e r n a t i o n a l   j o u r n a l   o f   i n t e l l i g e n t   sy s t e ms   a n d   a p p l i c a t i o n s   i n   e n g i n e e r i n g   I n d o n e si a n   n e w s   c l a ssi f i c a t i o n   u si n g   I n d o B ER T ,   O ri g i n a l   Re se a r c h   P a p e I n t e r n a t i o n a l   J o u r n a l   o f   I n t e l l i g e n t   S y st e m a n d   Ap p l i c a t i o n s   i n   E n g i n e e ri n g   I J I S AE   v o l .   2 0 2 3 ,   n o .   2 ,   2 0 2 3 .   [ 10 ]   L.   W u   e t   a l . W o r d   mo v e r e m b e d d i n g :   f r o w o r d 2 v e c   t o   d o c u me n t   e mb e d d i n g ,   i n   Pr o c e e d i n g o f   t h e   2 0 1 8   C o n f e r e n c e   o n   Em p i r i c a l   M e t h o d i n   N a t u r a l   L a n g u a g e   Pr o c e ssi n g ,   EM N L 2 0 1 8 ,   2 0 1 8 ,   p p .   4 5 2 4 4 5 3 4 ,   d o i :   1 0 . 1 8 6 5 3 / v 1 / d 1 8 - 1 4 8 2 .   [ 11 ]   M .   P h a m,  S .   A l s e ,   C .   A .   K n o b l o c k ,   a n d   P .   S z e k e l y ,   S e m a n t i c   l a b e l i n g :   A   d o m a i n - i n d e p e n d e n t   a p p r o a c h ,   v o l .   9 9 8 1 .     C h a m:   S p r i n g e r   I n t e r n a t i o n a l   P u b l i s h i n g ,   2 0 1 6 .   [1 2 ]   J.  L a mb e r t ,   A . - L .   Le u t e n e g g e r ,   A .   B a u d o t ,   a n d   A . - S .   Ja n n o t ,   I mp r o v i n g   p a t i e n t   c l u st e r i n g   b y   i n c o r p o r a t i n g   s t r u c t u r e d   l a b e l   r e l a t i o n s h i p s   i n   s i mi l a r i t y   me a s u r e s,   m e d R x i v ,   2 0 2 3 .   [1 3 ]   F .   K o t o ,   A .   R a h i mi ,   J .   H .   La u ,   a n d   T.   B a l d w i n ,   I n d o LE M   a n d   I n d o B ER T:   a   b e n c h m a r k   d a t a s e t   a n d   p r e - t r a i n e d   l a n g u a g e   m o d e l   f o r   I n d o n e si a n   N LP,   i n   C O L I N G   2 0 2 0   -   2 8 t h   I n t e r n a t i o n a l   C o n f e re n c e   o n   C o m p u t a t i o n a l   L i n g u i s t i c s ,   P ro c e e d i n g s   o f   t h e   C o n f e re n c e ,   2 0 2 0 ,   p p .   7 5 7 7 7 0 ,   d o i :   1 0 . 1 8 6 5 3 / v 1 / 2 0 2 0 . c o l i n g - mai n . 6 6 .   [1 4 ]   J.  W a n g   a n d   Y .   D o n g ,   M e a su r e me n t   o f   t e x t   s i mi l a r i t y :   a   s u r v e y ,   I n f o r m a t i o n   ( S w i t z e rl a n d ) ,   v o l .   1 1 ,   n o .   9 ,   p p .   1 1 7 ,   2 0 2 0 ,     d o i :   1 0 . 3 3 9 0 / i n f o 1 1 0 9 0 4 2 1 .   [1 5 ]   D .   R o t h ma n ,   Tr a n sf o r mers   f o r   n a t u r a l   l a n g u a g e   p r o c e ss i n g :   B u i l d ,   t r a i n ,   a n d   f i n e - t u n i n g   d e e p   n e u r a l   n e t w o r k   a r c h i t e c t u r e s   f o r   N LP w i t h   P y t h o n ,   P y To r c h ,   T e n s o r F l o w ,   B E R T,   a n d   G P T - 3,   P a c k t   P u b l i s h i n g ,   2 0 2 2 .   [1 6 ]   B .   W i l i e   e t   a l . I n d o N LU :   B e n c h mar k   a n d   r e s o u r c e s   f o r   e v a l u a t i n g   i n d o n e si a n   n a t u r a l   l a n g u a g e   u n d e r s t a n d i n g ,   2 0 2 0 .   [ 1 7 ]   U .   S h a f i q u e   a n d   H .   Q a i ser ,   c o mp a r a t i v e   s t u d y   o f   d a t a   m i n i n g   p r o c e ss  m o d e l s   ( K D D ,   C R I S P - D M   a n d   S E M M A ) ,   I n t e r n a t i o n a l   J o u r n a l   o f   I n n o v a t i o n   a n d   S c i e n t i f i c   R e se a rc h ,   v o l .   1 2 ,   n o .   1 ,   p p .   2 1 7 - 2 2 2 ,   2 0 1 4 .   [1 8 ]   J.  M .   W u ,   Y .   B e l i n k o v ,   H .   S a j j a d ,   N .   D u r r a n i ,   F .   D a l v i ,   a n d   J.  G l a ss,  S i mi l a r i t y   a n a l y si o f   c o n t e x t u a l   w o r d   r e p r e s e n t a t i o n   mo d e l s ,   i n   Pr o c e e d i n g o f   t h e   A n n u a l   M e e t i n g   o f   t h e   A sso c i a t i o n   f o C o m p u t a t i o n a l   L i n g u i st i c s ,   2 0 2 0 ,   p p .   4 6 3 8 4 6 5 5 ,     d o i :   1 0 . 1 8 6 5 3 / v 1 / 2 0 2 0 . a c l - m a i n . 4 2 2 .   [1 9 ]   C .   B i e m a n n   a n d   M .   R i e d l ,   Te x t :   N o w   i n   2 D !   a   f r a mew o r k   f o r   l e x i c a l   e x p a n s i o n   w i t h   c o n t e x t u a l   si mi l a r i t y ,   J o u rn a l   o f   L a n g u a g e   Mo d e l l i n g ,   v o l .   1 ,   n o .   1 ,   2 0 1 3 ,   d o i :   1 0 . 1 5 3 9 8 / j l m . v 1 i 1 . 6 0 .   [ 20 ]   C .   S h o r t e n ,   T.   M .   K h o s h g o f t a a r ,   a n d   B .   F u r h t ,   Te x t   d a t a   a u g me n t a t i o n   f o r   d e e p   l e a r n i n g ,   J o u r n a l   o f   B i g   D a t a ,   v o l .   8 ,   n o .   1 ,   2 0 2 1 ,   d o i :   1 0 . 1 1 8 6 / s4 0 5 3 7 - 0 2 1 - 0 0 4 9 2 - 0.   [ 21 ]   D .   H a b a ,   D a t a   a u g m e n t a t i o n   w i t h   p y t h o n   e n h a n c e   d e e p   l e a r n i n g   a c c u r a c y   w i t h   d a t a   a u g me n t a t i o n   me t h o d s fo r   i mag e ,   t e x t ,   a u d i o ,   a n d   t a b u l a r   d a t a ,   2 0 2 3 .   [ 22 ]   J.  W e i   a n d   K .   Zo u ,   ED A :   Ea s y   d a t a   a u g me n t a t i o n   t e c h n i q u e s   f o r   b o o s t i n g   p e r f o r ma n c e   o n   t e x t   c l a ss i f i c a t i o n   t a s k s,   i n   E MN L P - I J C N L P   2 0 1 9   -   2 0 1 9   C o n f e re n c e   o n   Em p i r i c a l   Me t h o d i n   N a t u ra l   L a n g u a g e   Pr o c e ss i n g   a n d   9 t h   I n t e r n a t i o n a l   J o i n t   C o n f e r e n c e   o n   N a t u r a l   L a n g u a g e   Pr o c e ss i n g ,   Pr o c e e d i n g o f   t h e   C o n f e r e n c e ,   2 0 1 9 ,   p p .   6 3 8 2 6 3 8 8 ,   d o i :   1 0 . 1 8 6 5 3 / v 1 / d 1 9 - 1 6 7 0 .   [2 3 ]   M .   B a y e r ,   M .   A .   K a u f h o l d ,   B .   B u c h h o l d ,   M .   K e l l e r ,   J.  D a l l m e y e r ,   a n d   C .   R e u t e r ,   D a t a   a u g m e n t a t i o n   i n   n a t u r a l   l a n g u a g e   p r o c e ss i n g :   A   n o v e l   t e x t   g e n e r a t i o n   a p p r o a c h   f o r   l o n g   a n d   s h o r t   t e x t   c l a ssi f i e r s,   I n t e r n a t i o n a l   J o u r n a l   o f   Ma c h i n e   L e a r n i n g   a n d   C y b e r n e t i c s ,   v o l .   1 4 ,   n o .   1 ,   p p .   1 3 5 1 5 0 ,   2 0 2 3 ,   d o i :   1 0 . 1 0 0 7 / s1 3 0 4 2 - 0 2 2 - 0 1 5 5 3 - 3.   [2 4 ]   M .   H a s n a i n   e t   a l . Ev a l u a t i n g   t r u s t   p r e d i c t i o n   a n d   c o n f u si o n   mat r i x   m e a su r e s   f o r   w e b   s e r v i c e s   r a n k i n g ,   I EE A c c e s s ,   v o l .   8 ,     p p .   9 0 8 4 7 9 0 8 6 1 ,   2 0 2 0 .   [2 5 ]   A .   Lu q u e ,   A .   C a r r a sc o ,   A .   M a r t í n ,   a n d   A .   d e   l a H e r a s,   T h e   i m p a c t   o f   c l a ss   i m b a l a n c e   i n   c l a ssi f i c a t i o n   p e r f o r ma n c e   me t r i c s   b a s e d   o n   t h e   b i n a r y   c o n f u s i o n   mat r i x ,   P a t t e r n   R e c o g n i t i o n ,   v o l .   9 1 ,   p p .   2 1 6 2 3 1 ,   2 0 1 9 ,   d o i :   1 0 . 1 0 1 6 / j . p a t c o g . 2 0 1 9 . 0 2 . 0 2 3 .       B I O G RAP H I E S O F   AUTH O RS       Ye ss y   As r i           sh e   wa b o r n   o n   Oc to b e 1 3 ,   1 9 7 6 ,   i n   P a d a n g   c it y .   S h e   is   t h e   first   o th re e   c h il d re n ,   b o r n   to   fa t h e As ri  M a a rif  a n d   m o th e E d in a r.   S t a rti n g   e d u c a ti o n   i n   th e   S 1   De p a rtme n o I n fo rm a ti c En g in e e rin g ,   t h e n   c o n t in u in g   h e r   M a ste rs  e d u c a ti o n   i n   t h e   De p a rtme n o f   In fo rm a ti o n   S y ste m s,  a n d   c u rre n tl y ,   sh e   is  c o n ti n u i n g   h is  d o c t o ra e d u c a ti o n   in   th e   De p a rtme n o In fo rm a ti o n   T e c h n o l o g y .   Cu rre n t ly ,   sh e   se rv e a He a d   o th e   In fo rm a ti o n   S y ste m S tu d y   P r o g ra m   a t   t h e   P LN  In stit u te  o f   Tec h n o lo g y   (IT P LN)  in   Ja k a rta  a n d   is  a lso   a   lec tu re a se v e ra we ll - k n o w n   u n iv e rsiti e in   Ja k a rta.  S h e   is  a lso   c u rre n tl y   a c ti v e   a th e   Ch ief  Ed it o o t h e   ITP LN  KILAT   Jo u rn a l,   is   a c ti v e   a a n   i n stru c to r   a se v e ra train in g   in stit u ti o n s ,   a n d   is  a lso   c u rre n tl y   a n   a c ti v e   BNSP   a ss e ss o r.   Wi th   p e rs e v e ra n c e   a n d   h i g h   m o ti v a ti o n   to   c o n ti n u e   lea rn i n g   a n d   tr y i n g ,   u n ti n o th e   a u th o h a p ro d u c e d   m a n y   writi n g i n   se v e ra S INTA - a c c re d it e d   n a ti o n a l   jo u rn a ls  a n d   in d e x e d   i n tern a ti o n a l   jo u r n a ls  o n   in tellec tu a l   p r o p e rt y   rig h ts   (Ha KI),  c a rried   o u t   m a n y   c o m m u n it y   se rv ice   a c ti v it ies   (P k M ),   a n d   re c e iv e d   se v e ra l   a wa rd s.   S h e   c a n   b e   c o n tac ted   a e m a il :   y e ss y a sri@it p l n . a c . id .     Evaluation Warning : The document was created with Spire.PDF for Python.