I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   11 ,   No .   4 A u g u s t   2021 ,   p p .   3 5 1 9 ~ 3 5 2 8   I SS N:  2 0 8 8 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v 1 1 i 4 . pp 3 5 1 9 - 3 5 2 8          3519       J o ur na l ho m ep a g e h ttp : //ij ec e. ia esco r e. co m   Using  deep  l ea rni ng   m o dels  f o r lea rning  se m a ntic  t e x si m i la rity  o Ara bic  q uestio ns       M a h m o ud   H a mm a d,  M o ha mm e d Al - S m a di ,   Q a nita   B a ni B a k er ,   Sa a d A.   Al - Z bo o n   Co ll e g e   o f   Co m p u ter an d   In f o rm a ti o n   T e c h n o lo g y ,   Jo rd a n   Un iv e rsity   o f   S c ien c e   a n d   T e c h n o lo g y ,   Irb id ,   Jo r d a n       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   J u l 2 2 ,   2 0 2 0   R ev i s ed   Dec   9 ,   2 0 2 0   A cc ep ted   J an   13 ,   2 0 2 1       Qu e stio n - a n sw e rin g   p latf o rm s se r v e   m il li o n s o f   u se rs se e k in g   k n o w led g e   a n d   so lu ti o n f o th e ir  d a il y   li f e   p ro b lem s.  Ho w e v e r,   m a n y   k n o w led g e   se e k e r s   a re   f a c in g   th e   c h a ll e n g e   to   f in d   th e   rig h a n sw e a m o n g   si m il a r   a n sw e re d   q u e stio n a n d   w rit e r’s   re sp o n d in g   t o   a sk e d   q u e stio n f e e li k e   th e y   n e e d   to   re p e a a n sw e rs  m a n y   ti m e f o r   sim il a r   q u e stio n s.  T h is  re se a rc h   a im a tac k li n g   th e   p ro b lem   o f   lea rn in g   th e   se m a n ti c   tex t   si m il a rit y   a m o n g   d iff e re n t   a sk e d   q u e stio n b y   u sin g   d e e p   lea rn in g .   T h re e   m o d e l s   a r e   i m p l e m e n t e d   t o   a d d r e s s   t h e   a f o r e m e n t i o n e d   p r o b l e m :   i )   a   s u p e r v i s e d - m a c h i n e   l e a r n i n g   m o d e l   u s i n g   XG B o o s t   t r a i n e d   w i t h   p r e - d e f i n e d   f e a t u r e s ,   ii )   a n   a d a p t e d   S i a m e s e - b a s e d   d e e p   l e a r n i n g   r e c u r r e n t   a r c h i t e c t u r e   t r a i n e d   w i t h   p r e - d e f i n e d   f e a tu re s ,   a n d   ii i p re - train e d   d e e p   b id irec ti o n a tra n sf o rm e b a se d   o n   BERT   m o d e l.   P r o p o se d   m o d e ls  w e re   e v a lu a ted   u sin g   a   re fe re n c e   A ra b ic  d a tas e t   f ro m   th e   m a w d o o 3 . c o m   c o m p a n y .   Ev a lu a ti o n   re su lt sh o w   th a th e   BERT - b a se d   m o d e o u t p e rf o r m th e   o th e r   tw o   m o d e ls  w it h   a n   F 1 = 9 2 . 9 9 % ,   w h e r e a s   t h e   S i a m e s e - b a s e d   m o d e l   c o m e s   i n   t h e   s e c o n d   p l a c e   w i t h   F 1 = 8 9 . 0 4 8 % ,   a n d   f i n a l l y ,   t h e   XG B o o s t   a s   a   b a s e l i n e   m o d e l   a c h i e v e d   t h e   l o w e s t   re su lt   o f   F 1 = 8 6 . 0 8 6 % .   K ey w o r d s :   A r ab ic  d ataset    B E R T   Dee p   lear n in g     Ma ch i n lear n i n g   Se m a n tic  te x t si m ilar i t y   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Ma h m o u d   Ha m m ad   C o lleg o f   C o m p u ter   an d   I n f o r m atio n   T ec h n o lo g y   J o r d an   Un iv er s it y   o f   Scie n ce   a n d   T ec h n o lo g y   I r b id ,   J o r d an   2 2 1 1 0   E m ail:  m - h a m m ad @ j u s t.e d u . j o       1.   I NT RO D UCT I O N   Se m a n tic  tex s i m ilar it y   ( ST S)  is   m ea s u r e m en u s ed   to   d eter m i n h o w   l i n g u i s t i c   t e r m s   a r e   e q u i v a l e n t   t o   e a c h   o t h e r .   L i n g u i s t i c   t e r m s   t h a t   u s u a l l y   s t u d i e d   a r e   d o c u m e n t s ,   s e n t e n c e s ,   w o r d s ,   a n d   q u e s t i o n s   [ 1 ] .   T h ST im p r o v es  t h u n d er s tan d i n g   o f   th s e m a n tic  s i m i lar it y   b et w ee n   li n g u is tic  ter m s   an d   in cr ea s e s   th e   ac cu r ac y   o f   s ev er al   k n o w led g e - b ased   ap p licatio n s .   T h is   u n d er s tan d in g   g i v es   t h ST g r ea i m p ac t   o n   m a n y   ap p licatio n s   i n   ar tific ial  i n t ell ig en ce   an d   t h co m p u tatio n a l   lin g u is tic s   s u ch   as  i n f o r m ati o n   r etr iev al,   w o r d   s en s d is a m b i g u atio n ,   k n o w le d g ac q u is it io n ,   an d   n a tu r al  la n g u a g p r o ce s s in g   ( N L P )   [ 2 ,   3 ] .   R eg ar d in g   to   th e   N L P   f ield ,   ST ap p licatio n s   ca n   b e x ten d   f r o m   p ar ap h r ase  id e n ti f i ca tio n   a n d   q u esti o n   s i m i lar it y   to   m ac h in e   tr an s latio n   [ 4 ] .   T h r esear ch   i n   t h ST h a s   b ee n   g r ea tl y   i n cr ea s ed   d u r in g   th e   p ast  f e w   y ea r s ,   m o s o f   t h e m   d r iv en   b y   th e   an n u al  Se m E v al  co m p etitio n s   [ 5 ] .   Se m E v al   is   an   in ter n atio n al  w o r k s h o p   f o r   s e m an tic  ev al u a tio n   d r iv en   b y   th SIG L E [ 1 ] .   W ith   t h ad v e n o f   W eb   2 . 0   an d   s o cial  co m p u ti n g   ad v a n ce m en ts ,   p lat f o r m s   f o r   q u e s tio n   an s w er i n g   h as  b ec o m w id el y   u s ed .   Acc o r d in g   to   t h Qu o r a,   well - k n o w n   p lat f o r m   f o r   q u est io n   a n s w er i n g   an d   k n o w led g s h ar i n g ,   o v er   1 0   m illi o n   u s e r s   v is it   Q u o r ev e r y   m o n t h .   W it h   s u c h   a   lar g e   n u m b er   o f   v is ito r s ,   s i m ilar   q u esti o n s   d ef i n itel y   wo u ld   b ask ed   an d   an s w er ed   b y   s e v er al  u s er s ,   h en ce   co n f u s in g   o th er   u s er s   i n   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  11 ,   No .   4 A u g u s t 2 0 2 1   :   3 5 1 9   -   3528   3520   f i n d in g   t h r i g h t   an s w er   an d   c au s i n g   t h w r iter s   to   f ee l   lik e   th e y   h a v to   w r ite   th e   s a m a n s w er   s ev er al  ti m es   r esp o n d in g   to   s i m i lar   q u esti o n s .   T w o   q u est io n s   a s k i n g   ab o u th s a m th i n g   ca n   b f o r m ed   u s i n g   d if f er e n s et  o f   v o ca b u lar y   an d   s y n - tactic  s tr u ct u r e.   T h is   m a k es  d etec tin g   t h s e m an t ic  s i m i lar it y   b et w ee n   t h q u e s tio n s   i s   ch alle n g i n g   tas k .   T h is   r esear ch   p r o p o s es  th r e m o d els   f o r   a n al y zi n g   t h e   s e m an tic  s i m ilar it y   o f   A r a b ic  q u esti o n   p air s ;     i )   s u p er v is ed - m ac h i n lear n in g   m o d el  u s i n g   XGB o o s [ 6 ]   tr ain ed   w it h   p r e - d ef i n ed   f ea t u r es,  ii )   an   ad ap ted   Sia m e s d ee p   lear n in g   r ec u r r en ar ch itect u r b ased   o n   th w o r k   o f   [ 7 ] ,   an d   iii )   a   p r e - tr ain ed   d ee p   b id ir ec tio n al  tr an s f o r m er   b ase d   o n   B E R T   m o d el  [ 8 ] .   T h is   p ap er   p r esen ts   s e v er al  n e w   n o n - tr i v ial  ex te n s io n s   to   o u r   p r elim in ar y   w o r k   d escr ib ed   in   [ 9 ] :     Ou r   p r eli m in ar y   w o r k   [ 9 ]   co n t ain s   o n l y   tr ad itio n a m ac h in e   l ea r n in g   m o d els  s u c h   a s   XGB o o s t,  SVM,   a n d   d ec is io n   tr ee .   I n   t h is   m a n u s cr i p t,  w h a v d esi g n ed   an d   i m p le m e n ted   v ar io u s   d ee p   lear n in g   m o d els  u s in g   tr an s f er   lear n i n g   tec h n iq u e.     W en lar g ed   t h d ataset   u s ed   f o r   t r a i n i n g   a n d   t e s t i n g .   I n   [ 9 ] ,   w e   t r a i n e d   o u r   m o d e l s   o n   9 , 5 6 8   p a i r s   o f   q u e s t i o n s   w h e r e a s   i n   t h i s   p a p e r ,   w e   t r a i n e d   o u r   m o d e l s   o n   1 5 , 7 1 2   p a i r s   o f   q u e s t i o n s ,   i . e . ,   3 1 , 4 2 4   d i s t i n c t   q u e s tio n s .     Si m i lar   to   o u r   p r elim in ar y   w o r k   in   [ 9 ] ,   t w o   o f   o u r   m o d el s   tr ain ed   u s in g   p r e - e n g i n ee r ed   f e atu r es  i n clu d i n g   ch ar ac ter - le v el  f ea tu r e s ,   w o r d - lev el  f ea t u r es,  m o r p h o lo g i ca f ea t u r es,  s e m an t ic  f ea t u r es,  an d   w o r d   e m b ed d in g   f ea tu r es.   Un lik e   o u r   p r eli m i n ar y   w o r k ,   o u r   b est - ac h iev ed   m o d el,   t h B E R T - b a s ed   m o d el,   w a s   ab le  to   l ea r n   t h s e m a n tic  s i m ilar it y   a m o n g   p air   o f   A r ab ic  q u esti o n s   w it h o u t h n ee d   f o r   p r e - en g in ee r ed   f ea t u r es.  Hen ce ,   i n cr ea s i n g   t h g en er alit y   a n d   th ap p licab ilit y   o f   o u r   ap p r o ac h .     On   to p   o f   t h p r ev io u s   tec h n ic al  co n tr ib u tio n s ,   w d i s cu s s ed   o u r   w o r k   in   li ght   o f   o t h e r   r e l a t e d   r e s e a r c h   e f f o r t   i n   t h e   a r e a   o f   A r a b i c   t e x t   s i m i l a r i t y   d e t e c t i o n   u s i n g   d e e p   l e a r n i n g .   M o r e o v e r ,   t h e   p a p e r   p r o v i d e s   d e t a i l e d   d e s c r i p t i o n   o f   t h e   m o d e l s   a l o n g   w i t h   t h e   u s e d   p a r a m e t e r s   f o r   t r a i n i n g   o u r   m o d e l s   t o   g i v t h b est   r esu lts .   T h r est   o f   th is   p ap er   is   o r g an ized   as  f o llo w s Sectio n   2 .   p r esen t s   b r ief   s u r v e y   o f   t h lit er atu r f o r   ST T h en ,   s ec tio n   3 .   d escr ib es  o u r   m e th o d   f o r   d etec tin g   s i m ilar   A r ab ic  q u esti o n s .   Secti o n   4 .   p r esen ts   th e   r esu lt s   o f   o u r   in te n s i v ex p e r i m en ts .   I n   s ec tio n   5 ,   r esu lts   ar an al y ze d   an d   d is cu s s ed .   Fin all y ,   s ec tio n   6 .   co n clu d es t h p ap er   w it h   av e n u o f   f u t u r w o r k .       2.   RE L AT E WO RK   Ma n y   r esear ch er s   f r o m   v ar io u s   f ield s   u ti lized   s e m a n ti tex s i m ilar it y   ( ST S)  o n   d if f er en t   ap p licatio n s .   T h is   s ec tio n   co m p ar es  an d   co n tr a s ts   o u r   r esear ch   co n tr ib u tio n   i n   li g h o f   o th er   r esear ch   w o r k   i n   th f ield .   O u r   w o r k   i s   r elate d   t o   th r esear ch   b o d y   th at   ap p lied   m ac h i n lear n i n g   an d   d ee p   l ea r n in g   tec h n iq u es   to   s o lv ST p r o b lem s   i n clu d in g   [ 1 0 - 2 6 ] .   Ho w ev er ,   all  o f   th p r ev io u s l y   m e n t io n ed   ap p r o ac h es  d esig n e d   th eir   ST m o d els  f o r   E n g li s h   lan g u ag te x t s .   E v en   t h o u g h   s o m o f   th eir   m o d els  ca n   b ap p lied   t o   A r ab ic  tex ts ,   t h e y   w ill  n o p r o d u ce   h ig h   ac c u r ac y   s in ce   t h eir   m o d els  ar n o d esig n ed   n o r   tr ain ed   o n   A r ab ic  tex t.   T h er ef o r e,   th ese   a p p r o ac h es c an n o t   s o l v t h p r o b le m   w ar tr y i n g   to   s o lv e,   th a t i s   ac c u r atel y   a n d   e f f icie n tl y   d etec tin g   s i m ilar   A r ab ic  q u est io n s .   A lt h o u g h   th m aj o r it y   o f   t h e   r esear ch er s   in   t h ST f ield   d ev elo p ed   tech n iq u es  f o r   th E n g li s h   lan g u a g es,  f e w   o f   th e m   d ev elo p e d   S T ap p r o ac h es  f o r   th A r ab ic  lan g u ag e.   Ne x we  d is cu s s   t h m a i n   r esear ch   e f f o r ts   f o r   d etec tin g   th e   s e m an tic  s i m ilar it y   o f   Ar ab ic  tex ts .   Mo h a m m ad   et  a l .   [ 2 7 ]   p r o p o s ed   an   en h a n ce d   ap p r o ac h   f o r   p ar a p h r ase  id en tif ica tio n   ( P I )   an d   S T in   A r ab ic  t w ee t s .   Sag h e et  a l.   [ 2 8 ]   p r o p o s ed   a   C NN  d ee p   lear n in g   m o d el  to   class if y   A r ab ic  s e n te n ce s   in to   th r ee   ca te g o r ies.  [ 2 9 ]   u s ed   an d   co m p ar ed   d if f er e n ST m et h o d s   to   m e asu r th cr o s s - la n g u a g s e m an tic  s i m ilar it y   f o r   s h o r s e n t e n c e s   a n d   p h r a s e s .   V a r i o u s   a p p r o a c h e s   u s e d   S T S   t o   d e t e c t   p l a g i a r i s m   i n   A r a b i c   t e x t s   s u c h   a s   [ 3 0 - 3 2 ] .   F e r r e r o   et   a l.   [ 3 3 ]   p r o p o s ed   t w o   d if f er e n ap p r o ac h es  to   m ea s u r t h ST o f   cr o s s - la n g u ag s e n ten ce s   f o r   A r ab ic - E n g l is h   te x t.  Mo r eo v er ,   [ 3 4 ]   p r o p o s ed   q u er y - b ased   A r ab ic  tex s u m m ar iza tio n   ap p r o ac h   th at  ac ce p ts   A r ab ic  d o cu m e n as  w ell  as   u s er   q u er ies.  Fin a ll y ,   [ 3 5 ]   ad o p ted   m o r p h o lo g ical  w o r d 2 v e m et h o d   f o r   Neu r al   m ac h i n e   tr an s latio n   f o r   lo w   r eso u r ce   s etti n g s         3.   RE S E ARCH   M E T H O D   T h is   s ec tio n   d escr ib es  o u r   m eth o d   in   d ev elo p in g   m ac h i n e - lear n i n g   ap p r o ac h   f o r   ac cu r atel y   a n d   ef f icien tl y   d etec ti n g   if   t w o   A r ab ic  q u esti o n s   ar s i m i lar   o r   n o t.     3 . 1 .   Ara bic  qu estio n s   pa ir’ s   da t a s et   I n   o r d er   to   ev alu a te  o u r   m o d els,  th e   A r ab ic  q u est io n s   p air s   d ataset  p r o v id ed   b y   ma w d o o 3 . c o m   c o m p a n y   i s   u s e d .   T h e   d a t a s e t   w a s   m a n u a l l y   a n n o t a t e d   b y   m a w d o o 3 s   d a t a   a n n o t a t i o n   t e a m .   A s   s h o w n   i n   T a b l e   1 ,   th d ataset  co n s i s ts   o f   ar o u n d   1 5 k   p air s   o f   A r ab ic  q u es tio n s   an n o tated   as  s i m ilar ”  o r   n o t .   T h e   d a t a   w a s   d i v i d e d   i n t o   tw o   f i l e s ,   t r a i n i n g   d a t a   w i t h   1 1 . 9 9 7   p a i r s   o f   q u e s t i o n s   a n d   t e s t i n g   f i l e   w i t h   3 . 7 1 5   p a i r s   o f   q u est io n s .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       Usi n g   d ee p   lea r n in g   mo d els fo r   lea r n in g   s ema n tic  text  s imila r ity  o A r a b ic   q u esti o n s   ( Ma h mo u d   Ha mma d )   3521   T ab le   2   s h o w s   a n   ex a m p le  o f   t w o   p air s   o f   q u esti o n s   s elec t ed   f r o m   t h d ataset  an d   r ep r esen ti n g   th e   t w o   m ai n   ca teg o r ies:   s i m ilar   s h o w n   as  Yes”  o r   n o s i m ila r   s h o w n   a s   “No ”.   I n   th f ir s r o w   o f   t h T ab le  2 ,   Qu est io n 1   as k s   ab o u t h b ir th   cit y   o f   t h co m p r eh e n s iv e   th i n k er ,   A l - R az i,  a n d   Qu e s tio n 2   ask s   ab o u t h cit y   o f   A l - R az m u s e u m .   C lear l y ,   th o s t w o   q u e s tio n s   ar n o s i m ilar   s i n ce   th e y   ar as k i n g   a b o u t w o   d if f er en t   th i n g s .   O n   t h o t h er   h a n d ,   Q u esti o n 1   an d   Qu e s tio n 2   i n   t h s ec o n d   r o w   o f   th e   T ab le   2   ar a s k i n g   ab o u t h e   f ir s co u n tr y   w h er co m m u n i s m   p o liti ca id eo lo g y   w as  s t ar ted .   T h o s t w o   q u e s tio n s   w er w r itte n   i n   t w o   d if f er e n w a y s   b u t t h e y   s til l h a v s i m ilar   m ea n i n g .   T h u tili z ed   d ataset  is   n ea r l y   b alan ce d   w it h   5 5 . 0 1 lab ele d   as  n o s i m ilar ”  an d   th r est,  4 4 . 9 9 %,  lab eled   as  “si m ilar ”  I n   o r d er   to   f u r t h er   a n al y ze   th e   d ataset ,   w co m p u ted   t h co m m o n   w o r d s   a m o n g   ea c h   q u esti o n   p air .   Fig u r 1   s h o ws  th a t h n u m b er   o f   o v er lap p in g   w o r d s   b et w ee n   p air   o f   s i m ilar ”  an d   “n o t   s i m ilar ”  q u esti o n s   i s   ar o u n d   2   w o r d s .   T h er ef o r e,   r ely i n g   o n   th o v er lap p ed   w o r d s   b et w ee n   p air   o f   q u est io n s   to   k n o w   if   t h e y   ar s i m ilar   w il n o g i v g o o d   r esu l ts .   T h u s ,   Fi g u r 1   s h o w s   t h at  o u r   p r o b lem   is   v er y   ch alle n g i n g   to   s o lv e.       T ab le  1 .   Nu m b er   o f   in s ta n ce s   in   th d ata s et   T r a i n   d a t a se t   T e st   d a t a se t   T o t a l   1 1 , 9 9 7   3 , 7 1 5   1 5 , 7 1 2       T ab le  2 .   A n   ex a m p le  o f   t w o   i n s tan ce s ,   t w o   p air s   o f   q u esti o n s ,   f r o m   th t w o   cla s s es   Q u e st i o n 1   Q u e st i o n 2   L a b e l                 ؟ ي ز ا ر لا   فح ت م   عق ي   ةن ي د م   ي أ  ي ف                 ي ز ا ر لا   د لو  ن ي أ   No   ؟ةي ع وي ش ل ا  ت ر ه ظ  ةلود   ي أ  ي ف   ؟ ةي ع وي ش لا   ت أد ب   ن ي أ   Y e s           Fig u r 1 .   T h d is tr ib u tio n   o f   c o m m o n   w o r d s   i n   s i m ilar   a n d   n o n - s i m ilar   q u esti o n s   f o r   th tr ain i n g   d atase t       3 . 2 .   Da t a   pre - pro ce s s ing   I n   o r d er   to   p r ep a r th d ataset  f o r   f u r t h er   p r o ce s s in g   an d   to   en h a n ce   th ac c u r ac y   a n d   r ed u ce   th e   n o is i n   th d ata,   v ar io u s   A r ab ic  p r e - p r o ce s s in g   s tep s   w er a p p lied   s u ch   as:     R e m o v al  o f   n o n - A r ab ic  w o r d s .     R e m o v al  o f   h y p er li n k s   an d   h a s h ta g s   i n   all  p o s ts .     R e m o v al  o f   A r ab ic  d iacr itics   s u ch   a s     R e m o v al  o f   p u n ct u atio n   a n d   s y m b o ls   s u c h   as  ? ,   ( ,   ) ,   ,     !   @   $   #   ”.     No r m a lizatio n ,   w h ic h   is   u s ed   to   r em o v “H A M Z A ”  f r o m   t h “AL E F/  ”  ( i.e . ,   th r ep lace d   w it h   th e   ab s tr ac t v er s io n   o f   th let ter   ( ( ( (   ) ) ) .     R e m o v al  o f   A r ab ic  s to p   w o r d s .   T h NL T lib r ar y   [ 3 6 ]   w r itte n   i n   p y t h o n   w as   u s ed   to   i m p l e m en t h d ata   p r e - p r o ce s s i n g   an d   d at a   clea n i n g   p h a s e.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  11 ,   No .   4 A u g u s t 2 0 2 1   :   3 5 1 9   -   3528   3522   3 . 3 .   F ea t ures e x t ra ct io n   As  m e n tio n ed   ea r lier   t w o   o u o f   th r ee   m o d els  d ev elo p ed   in   th i s   r esear ch   w er tr ain ed   w it h   p r e -   en g i n ee r ed   f ea t u r es.  Af ter   th d ata  w as c lea n ed ,   th f o llo w in g   f ea t u r es  w er ex tr ac ted :     C h ar ac ter   lev el  f ea t u r es:  T h is   s et  o f   f ea t u r es  i n clu d e s th to tal  n u m b er   o f   ch ar ac ter s   f o r   th p air   o f   q u esti o n s ,   th n u m b er   o f   d if f e r en ch ar ac ter s   a m o n g   th q u e s tio n   p air s ,   t h e   r a t i o   o f   t h e   d i f f e r e n t   c h a r a c t e r s ,   t h e   n u m b e r   o f   s i m i l a r   c h a r a c t e r s   a m o n g   t h e   q u e s t i o n   p a i r s ,   a n d   t h e   r a t i o   o f   t h e   s i m i l a r   ch ar ac te r s .     W o r d   lev el  f ea t u r es:  T h is   s et  i n clu d e s th to tal  n u m b er   o f   w o r d s   f o r   th p air   o f   q u esti o n s ,   th n u m b er   o f   d if f er e n w o r d s   a m o n g   th q u esti o n   p a ir s ,   an d   t h r atio   o f   t h d if f er en t   w o r d s ,   t h n u m b er   o f   s i m ila r   w o r d s   a m o n g   t h q u e s tio n   p a ir s ,   an d   th r atio   o f   t h s i m il ar   w o r d s .   Mo r eo v er ,   th t y p e   o f   s i m ilar it y   o f   q u esti o n   p air s   is   u s ed   as  a n o t h er   f ea tu r e.   T h is   f ea t u r i s   co m p u ted   a s   b i n ar y   f ea t u r e   an d   d ep en d in g     o n   th q u e s tio n   in ter r o g at iv p a r ticles  ( i.e .   s i m ilar it y   o f   th e   f ir s w o r d   i n   ea ch   q u est io n ) .   A l s o ,   th tex t   o v er lap   f ea tu r es  w er co m p u ted   o n   th w o r d   lev el  an d   b ased   o n   o u r   p r ev io u s   r esear ch   [ 2 7 ] .   T h tex o v er lap   f ea tu r es  i n cl u d th n u m b er   o f   o v er lap p in g   w o r d s   d iv id ed   b y   th n u m b er   o f   w o r d s   in   q u esti o n 1 ,   th n u m b er   o f   o v er lap p in g   w o r d s   d iv id ed   b y   t h n u m b er   o f   w o r d s   i n   q u est io n 2 ,   an d   t h h a r m o n ic  m ea n   o f   th p r ev io u s   t w o   f ea t u r es.     Mo r p h o lo g ical  f ea t u r es:  Ste m m in g   w a s   u s ed   to   r ep r esen ea ch   q u e s tio n .   T h A r ab ic  lan g u a g i s   m o r p h o lo g icall y   r ic h   [ 3 7 ] ,   th er ef o r e,   r ep r esen tin g   t h p air   o f   q u es tio n s   u s i n g   t h eir   s te m   w o r d s   i n cr ea s e s   th ch a n ce   o f   w o r d   s i m ilar it y   o n   th s u r f ac le v el.     Se m a n tic  lev el   f ea t u r es:   T h is   f ea t u r s et   in c lu d es:   T F - I D F,  J a cc ar d ,   an d   C o s in e   s i m il ar it y   m ea s u r es.   T h ese  f ea t u r es  w er co m p u te d   f o r   ea ch   p air   o f   q u esti o n s .   T h lex ical  s i m ilar it y   m ea s u r es  ar co m p u te d   o n   b o th   th o r ig i n al  q u e s tio n s   an d   th eir   s te m m ed   f ea t u r es.     W o r d   E m b ed d in g   f ea t u r es:  T h p r e - tr ain ed   m o d el  f o r   A r ab i co n ten t   A r aVe 3 . 0   [ 3 8 ]   is   u s ed   to   co m p u te   th e m b ed d in g s   f ea t u r es  f o r   t h i n p u t   q u e s tio n s .   T h T w itt er - C B OW   w it h   e m b ed d in g   s i ze   o f   1 0 0   is   u s ed   o u t o f   th A r aVe a v ailab le  p r e - tr ain ed   m o d el s .     3 . 4 .   T he  dev elo ped  m o dels   T h is   r esear ch   i m p le m en t s   th r ee   m o d e ls   f o r   an al y zi n g   th s e m an tic  s i m ilar it y   o f   A r ab ic  q u esti o n s   p air s i )   s u p er v i s ed - m ac h in lear n i n g   m o d el  u s i n g   XGB o o s [ 6 ] ,   ii )   an   ad ap ted   Sia m ese  d ee p   lear n i n g   r ec u r r en ar ch itect u r b ased   o n   t h w o r k   o f   [ 7 ] ,   an d   iii )   a   p r e - tr ain ed   d ee p   b id ir ec tio n al   tr an s f o r m er   b ased   o n   B E R T   m o d el  [ 8 ] .     W h av e   ex tr ac ted   f ea t u r es   f r o m   th e   d ataset   to   tr ai n   t h f ir s t w o   m o d els,  t h XGB o o s a n d   t h e   Sia m e s n eu r al   n et w o r k .   Ho wev er ,   th e   B E R T   m o d el  is   ad ap ted   d ir ec tly   w it h o u t   an y   f ea t u r ex tr ac tio n   s tep .   W h av e   ca r ef u ll y   s e lecte d   th ese  t h r ee   m o d els   a m o n g   m an y   o th er   m o d els   f o r   m an y   r ea s o n s .   T h XGB o o s t   w a s   t h b est p er f o r m in g   m o d el  in   [ 9 ] ,   th Sia m ese  d ee p   lear n in g   m o d el  w o r k s   w ell  i n   s e m an tic  te x s i m ilar it y   [ 7 ,   3 9 ] ,   an d   th Go o g le  B E R T   m o d el  is   th s tate - of - t h e - ar m o d el  u s ed   f o r   s e v er al  n at u r al - la n g u a g e   p r o ce s s in g   ( N L P )   ap p licatio n s .     3 . 4 . 1 .   Su perv is ed - m a chi ne  le a rning   m o de l us i ng   XG B o o s t   XGB o o s [ 6 ]   is   s h o r s tan d in g   f o r   eXtr e m g r ad ien b o o s tin g .   XGB o o s is   s ca lab le  m ac h in e   lear n -   i n g   s y s te m   f o r   tr ee   b o o s tin g   an d   it  is   av a ilab le  as  an   o p en - s o u r ce   p ac k ag e.   I n   t h m ac h i n lear n i n g   co m p eti tio n   p u b li s h ed   b y   Ka g g le  in   2 0 1 5 ,   am o n g   th 2 9   w i n n i n g   s o lu tio n s ,   1 7   s o lu tio n s   ad ap ted   XGB o o s t.  Am o n g   th e s 1 7   s o lu tio n s ,   8   s o lu tio n s   u s ed   XGB o o s to   tr ai n   th m o d el,   w h i le  th r est  9   co m b i n ed   XGB o o s w it h   t h ar tific ial  n e u r al  n e t wo r k   as e n s e m b les.   XGB o o s ap p r o ac h   p r o v id es  p ar allel  tr ee   b o o s tin g   k n o w n   as  g r ad ie n b o o s ted   r eg r ess io n   tr ee   ( GB R T )   o r   g r ad ien b o o s tin g   m ac h in e   ( GB M)   w h ich   is   s ca lab le  an d   e f f icie n i m p le m e n tatio n   o f   g r ad ien t   b o o s ti n g   f r a m e w o r k   p r o p o s ed   b y   [ 4 0 ,   4 1 ] .   XGBo o s alg o r ith m   co m b i n es  w ea k   b ase  lear n in g   m o d els  i n to   a   s tr o n g er   lear n er   i n   an   iter ati v m an n er .   I is   av ailab le  i n   s ev er al  lan g u ag e s   s u ch   as  P y t h o n ,   R ,   a n d   J u lia.   XGB o o s ca n   b in teg r ated   w ith   s e v er al  lan g u a g d ata  s cie n ce   p ip elin es  as  s c ik i tlear n .   T h XGB o o s m o d el  is   tr ain ed   i n   an   ad d iti v m an n er .   A s   s h o w n   i n   ( 1 )    n ee d s   to   b ad d ed   t o   m i n i m ize  t h o b j e ctiv ( ) .   W h er  1   is   th p r ed ictio n   o f   t h   in s tan ce   at  th e     iter atio n .     ( ) = 1 | ( ̂ ) 1 + ( ) ) + Ω ( )   ( 1 )     I n   th i s   w o r k ,   w u s ed   t h XG B o o s t   P y th o n   p ac k a g i n tr o d u ce d   in   [ 6 ]   to   tr ain   th m o d el  with   t h p r e - d ef in ed   f ea t u r es  i n   o r d er   to   e n h a n ce d   ap p r o ac h   f o r   lear n in g   s e m an t ic  s i m ilar itie s   in   A r a b ic  q u esti o n s .   T h XGB o o s class i f ier   w a s   tr ain ed   u s i n g   th e x tr ac ted   f ea tu r es  as  e x p lain ed   i n   3 . 3 .   Th X G B o o s t   m o d e l   w a s   t r a i n e d   w i t h   a   m a x i m u m   t r e e   d e p t h   o f   6   a n d   a   l e a r n i n g   r a t e   ( e t a ) = 0 . 0 6 ,   0 . 0 4 ,   a n d   0 . 0 2   f o r   6 . 0 0 0   e p o c h s   o n   ea ch .     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       Usi n g   d ee p   lea r n in g   mo d els fo r   lea r n in g   s ema n tic  text  s imila r ity  o A r a b ic   q u esti o n s   ( Ma h mo u d   Ha mma d )   3523   3 . 4 . 2 .   S ia m ese  deep  lea rni ng   re curr ent   a rc hite ct ure   Sia m e s n e u r al  n et w o r k   i m p l e m en ts   t w o   s y m m etr ic  n eu r al   n et w o r k s   w it h   s h ar ed   w ig h t s   to   lear n   s e m a n tic  s i m ilar itie s   a m o n g   i n p u ts .   Sia m e s n eu r al  n et w o r k s   is   u s ed   i n   m a n y   s e m an t ic  s i m ilar it y   ap p licatio n s   s u c h   as:  f ac v er if icatio n   u s in g   s y m m e tr ic  co n v o lu tio n al  n e t w o r k s   [ 4 2 ] ,   s p ee ch   u n d er s tan d in g   a n d   s p ea k er -   s p ec if ic  i n f o r m ati o n   e x tr ac tio n   [ 4 3 ] ,   an d   in   s e m a n tic  te x t si m ilar it y   [ 7 39 ].   I n   th i s   r esear ch ,   w u til ized   th Sia m ese  n e u r al  n et w o r k   ar ch itect u r to   d ev elo p   an   en h a n ce d   ap p r o ac h   f o r   lear n in g   s e m a n ti s i m ilar it ies  i n   A r ab ic  q u es ti o n s .   T h m o d el  co n s i s ts   o f   t wo   s y m m etr ic  la y er s   ea ch   co n ta in s   a n   e m b ed d in g   l a y er   f o llo w ed   b y   b i - d ir ec ti o n al  lo n g   s h o r ter m   m e m o r y   ( L ST M)   la y er   a n d   th en   an   L ST la y er .   B ein g   S ia m ese - b ased   t h w e ig h ts   u s e d   to   tr ain   b o th   b i - L ST E M   an d   L ST la y er s   f o r   b o th   q u es t io n s   ar s h ar ed   s ee   Fig u r 2 .   T h o u tp u o f   t h s y m m etr ic  la y er s   ar th e n   co n ca ten a ted   w it h   t h e   o u t p u o f   t h f ea tu r es  la y er   an d   f ed   to   f u ll y   co n n ec t   d en s l a y er s   w it h   b atch   n o r m aliza tio n   [ 4 4 ]   an d   Dr o p o u t   [ 4 5 ]   lay er s .   T h e   f in a la y er   is   d en s cla s s i f icatio n   la y er   w it h   ac t iv at io n   o f   s i g m o id   to   g et  b i n ar y   class i f icatio n   v al u w h et h er   q u esti o n s   ar s i m il ar   o r   n o t.   T h b atch   n o r m aliza tio n   [ 4 4 ]   an d   d r o p o u [ 4 5 ]   lay er s   ar u s ed   to   r eg u lar ize  th o u t p u o f   t h Sia m e s la y er s   an d   to   av o id   c o m m o n   p r o b le m s   i n   d ee p   lear n in g   s u ch   as:   i)   I n ter n al   co v a r iate  s h i f t   ( i . e .   t h c h a n g e   i n   t h e   d i s t r i b u t i o n   o f   n e t w o r k   a c t i v a t i o n s   d u e   t o   t h e   c h a n g e   i n   n e t w o r k   p a r a m e t e r s   d u r i n g   t r a i n i n g . ”  [ 4 4 ] )   an d   ii)  Ov er f itti n g   d u r in g   n e u r al  n et w o r k   tr ai n i n g .   T h ter m   d r o p o u t”  r ef er s   to   r a n d o m l y   d r o p p in g   o u t   u n i ts   ( h id d en   an d   v i s ib le)   in   n e u r al  n et w o r k .   B y   d r o p p in g   u n i o u t,  w m ea n   te m p o r ar il y   r em o v i n g   it  f r o m   t h e   n et w o r k ,   alo n g   w it h   all   it s   i n c o m in g   a n d   o u t g o i n g   co n n ec tio n s ”  [ 4 5 ] .   T h L 2   r e g u lar izat io n   w it h   v al u e= 0 . 0 0 1   w a s   u s ed   w i th   t h f u ll y   co n n e ct  d en s la y er s .           Fig u r 2 .   T h Siam e s e - b ased   m o d el  ar c h itect u r e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  11 ,   No .   4 A u g u s t 2 0 2 1   :   3 5 1 9   -   3528   3524   3 . 4 . 3 .   P re - t r a ined deep  bi direct io na l t ra ns f o r m er   ba s e d o n B E RT   m o del   I n   o u r   w o r k ,   w al s o   u s ed   b i d i r e c t i o n a l   e n c o d e r   r e p r e s e n t a t i o n s   f r o m   t r a n s f o r m e r s   ( B E R T )   m o d e l   [ 8 ] .   B E R T   is   s tate - of - th e - ar m o d el  u s ed   f o r   s e v er al  n atu r al - la n g u a g p r o ce s s in g   ( N L P )   ap p licati o n s .   B E R T   is   a   lan g u a g r ep r esen ta tio n   r elea s ed   b y   Go o g le  i n   Octo b er   2 0 1 8   u tili zin g   t h en co d er - d ec o d er   tr an s f o r m er   ar ch itect u r to   tr ain   th m o d el  r ep r esen tatio n s   u s in g   u n a n n o tated   d ata.   T h B E R T   m o d el  r ep r esen tatio n s   ar e   b u ilt o v er   co n te x t u al  r ep r esen t at io n s   li k Se m i - s u p er v i s ed   L ea r n in g   [ 4 6 ] ,   UL MFit [ 4 7 ] ,   an d   E L Mo   [ 4 8 ] .   T h B E R T   m o d el  h a s   m an y   v er s io n s ,   s ee   T ab le  3   f o r   m o r d etails.  T h Un ca s ed   v er s io n s   o f   B E R T   m o d el  m ea n s   th at   th tex t   h a s   b ee n   lo w er - ca s ed   b ef o r to k en iza tio n   a n d   t h C a s ed   v er s io n s   m ea n s   th at   th e   ca s o f   th tex i s   p r eser v ed .   Fo r   th s ak o f   th is   r esear ch ,   th B E R T - B ase,   Un ca s ed   is   u s ed .   T h B E R T - B ase,   Un ca s ed   is   b u i lt o u t o f   1 2   lay er s   w ith   7 6 8   h id d en   la y er s ,   w i th   1 2   h ea d s ,   an d   1 1 0   tr ain ed   p ar a m eter s .       T ab le  3 .   T h B E R T   m o d el  v er s io n s   B ER T   v e r si o n   #   L a y e r s   #   H i d d e n   #   H e a d s   #   P a r a me t e r s   B ER T - L a r g e ,   U n c a se d   24   1 0 2 4   16   3 4 0   M   B ER T - L a r g e ,   C a se d   24   1 0 2 4   16   3 4 0   M   B ER T - B a se ,   U n c a se d   12   7 6 8   12   1 1 0   M   B ER T - B a se ,   C a se d   12   7 6 8   12   1 1 0   M       As  s h o w n   i n   Fig u r 3 ,   in   t h B E R T   m o d el,   th i n p u r ep r es en ts   p air   o f   s en ten ce s ,   w h ic h   is   h er a   p air   o f   q u est io n s ,   in   o n to k en   s eq u en ce .   As  s h o w n ,   t w o   q u esti o n s   p ac k ed   to g et h er   t o   th i n p u to k e n   s eq u en ce .   T h f ir s to k en   o f   th s eq u e n ce   i s   s p ec ial  cla s s i f i ca tio n   to k e n   ca lled   [ C L S]” .   T o   d if f er en tiate  th e   t w o   q u e s tio n s   in   t h to k e n   s eq u en ce ,   s p ec ial  to k e n   ca lled   “[ SEP ] ”  is   u s ed   to   s ep ar ate  th em .   T h en ,   lear n ed   e m b ed d in g   i s   ad d ed   to   ev er y   to k en   i n   o r d er   to   in d icate   w h eth er   it  b elo n g s   to   Qu est io n 1   o r   Qu esti o n 2 .   T h in p u t   e m b ed d in g   i s   d en o ted   a s   E ”.   T h f i n al  h id d en   v ec to r   f o r   th s p ec ial  “CLS”  to k e n   is   d en o ted   as   C   an d   th f i n al  h id d en   v ec to r   f o r   th i th   in p u to k en   i s   d en o ted   as  T i.  T h in p u e m b ed d in g s   ar r ep r esen ted   as  th s u m m a tio n   o f   t h to k e n   e m b ed d i n g s ,   th s eg m e n tatio n   e m b ed d in g s ,   an d   th p o s itio n   e m b ed d in g s .           Fig u r 3 .   T h B E R T   m o d el  em b ed d i n g   m ec h an i s m       As  p r esen ted   i n   Fi g u r 4 ,   th B E R T - b ased   m o d el  u ti l izes  th e n co d er - d ec o d er   tr an s f o r m er   ar ch itect u r to   lear n   t h s e m a n tic  s i m ilar it y   o f   t h i n p u q u esti o n s .   T r an s f o r m er s   [ 4 9 ]   i m p le m en t s   d i f f er e n t   la y er s   o f   m u lti -   h ea d   s el f - a tt en tio n   w it h   f ee d - f o r w ar d   a n d   s k ip p in g   m ec h an i s m .   I n   co n tr ast  to   tr ad itio n al   atten tio n   m ec h a n i s m   [ 5 0 ] ,   th m u lti - h ea d   s el f - atte n tio n   att en d s   o n l y   to   th e   i n p u s eq u e n ce   o f   tex a n d   th e   m u lti - h ea d   f u n ctio n a lit y   e n ab l es  ea ch   la y er   to   atten d   to   d if f e r en w o r d s   w it h in   t h in p u s e q u en ce   o f   tex t.  T h e   p o s itio n al  e n co d in g   m ec h a n is m   r ep r esen t s   t h i n p u t   s eq u e n ce   o r d er ,   w o r d s   p o s itio n   w it h i n   t h s eq u en ce ,   a n d   th d is ta n ce   b et w ee n   w o r d s   as  v ec to r   w h ich   i s   th e n   ad d ed   to   th em b ed d in g   la y er .   T h ese  v ec to r s   h elp   i n   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       Usi n g   d ee p   lea r n in g   mo d els fo r   lea r n in g   s ema n tic  text  s imila r ity  o A r a b ic   q u esti o n s   ( Ma h mo u d   Ha mma d )   3525   ca p tu r in g   t h co n tex t u al  in f o r m ati o n   w it h in   t h i n p u s eq u en ce .   E ac h   s el f - at ten t io n   la y er   is   f o llo w ed   b y   r esid u al  co n n ec tio n   r ep r esen te d   b y   n o r m al izatio n   la y er   t h a ad d s   th i n p u t   v ec to r   o f   th e   s elf - atte n tio n   la y er   to   th o u tp u v ec to r   f r o m   t h e   s a m s el f - atte n tio n   la y er   h el p in g   to   ca r r y   f o r g o tten   i n f o r m atio n   to   th n ex t   la y er .   Fo r   m o r in f o r m atio n   t h r ea d er   is   r ed ir ec te d   to   [ 4 9 ] .           Fig u r 4 .   A   tr an s f o r m er   ar ch it ec tu r o f   2   s tack ed   e n co d er s   an d   d ec o d er s       4.   E XP E R I M E NT A T I O AN RE SU L T   I n   th i s   s tu d y ,   th th r ee   d ev elo p ed   m o d els  ar e v alu a ted   u s in g   t h A r ab ic  q u est io n s   d ata s et   p r o v id ed   b y   ma w d o o 3 . co m .   T h ese  th r e m o d els   ar XGB o o s [ 6 ] ,   Si a m ese   n e u r al  n et w o r k   [ 7 ] ,   an d   B E R T   m o d el  [ 8 ] .   T h F1   m ea s u r i s   u s ed   to   e v alu ate  t h p er f o r m an ce   o f   th e   m o d el s .   T h F1   m ea s u r i s   t h h ar m o n ic  m ea n   o f   p r ec is io n   an d   r ec all.   T h XGB o o s class if ier   w as  tr ain ed   u s i n g   th p r e - e n g in ee r ed   f ea tu r es  co m p u ted   o n   th tr ain in g   d ataset  w it h   m a x   tr ee   d ep th   o f   6 ,   lear n in g   r ate  ( eta)   o f   0 . 0 6 ,   0 . 0 4 ,   an d   0 . 0 2   f o r   6 . 0 0 0   ep o ch s .   On   t h o th er   h an d ,   th Sia m e s e - b ased   m o d el  w as  tr ain ed   u s i n g   t h p r e - en g i n ee r ed   f ea tu r e s .   T h s h ar ed   B i - L ST an d   L ST la y er s   h ad   1 0 0   h id d en   la y er s   a n d   an   in p u s ize  o f   1 0 0 .   T h m o d el  w as  tr ai n ed   f o r   1 0 0   ep o ch s   w it h   ea r l y   s to p p in g   o n   th e   9 8   ep o ch .   T h ea r l y   s to p p in g   i s   u s ed   to   a v o id   tr ai n i n g   o v er f itti n g   is   b a s ed   o n   m o n ito r i n g   t h v alid atio n   lo s s   v al u e.   On l y   th m o d el  w it h   th b est  w ei g h ts   w as  s a v e d   an d   th en   u s ed   f o r   ev alu a tin g   t h te s d ataset.   W h av tr ai n ed   t h m o d el  w it h   t h f o llo w i n g   h y p er - p ar a m ete r s h id d en =1 0 0 ,   e m b ed d in g   s ize = 1 0 0 ,   b atch   s ize= 5 1 2 ,   lear n in g   r ate= 0 . 0 0 1 ,   a n d   n u m b er   o f   ep o ch s =9 8 .   Fin all y ,   th B E R T - b ased   m o d el  w as  tr ai n ed   f o r   2 0   ep o ch s   w it h   d ata  e m b ed d in g   s ize  o f   1 0 0 ,   b atch   s ize  ( B S)= 16,   lear n i n g   r ate  ( L R ) =( 2 e - 5 - 1e - 5 ) ,   w ar m - u p   p r o p o r tio n   ( W P)= 0 . 1 ,   an d   n u m b er   o f   i ter atio n s   p er   lo o p   ( I P L ) =( 1 0 0 0 - 2 5 0 0 0 0 ) .   T h m o d el  w as   tr ain ed   o n   t h s te m m ed   v er s io n   o f   t h q u e s tio n s   p air s   w it h o u t u s in g   t h o th er   p r e - en g in ee r ed   f ea tu r es ,   a s   s h o w n   i n   T a b le   4.       T ab le  4 .   T h h y p er p ar am eter s   u s ed   to   tr ain   t h B E R T - b ased   m o d el  a n d   th eir   r es u lts   o n   th test   d ata   BS   #   E p o c h s   LR   WP   I P L   F1 - S c o r e   16   2   2e - 5   0 . 1   1 0 0 0   8 8 . 7 7 %   16   5   2e - 5   0 . 1   1 0 0 0 0   9 0 . 1 2 %   16   10   1e - 5   0 . 1   1 0 0 0 0 0   9 1 . 5 6 %   16   15   1e - 5   0 . 1   1 5 0 0 0 0   9 1 . 2 0 %   16   20   1e - 5   0 . 1   2 5 0 0 0 0   9 2 . 9 9 %       T ab le  5   s h o w s   t h at  t h B E R T - b ased   m o d el  o u tp er f o r m s   th e   o th er   t w o   m o d els  w i th   a n   F1 =9 2 . 9 9 %,   w h er ea s   t h Sia m ese - b ased   m o d el  co m e s   i n   t h s ec o n d   p lace   w ith   F1 = 8 9 . 0 4 8 %.  Fin all y ,   th X GB o o s t,  as  a   b aselin m o d el,   ac h iev ed   t h e   lo w est  r e s u lt  o f   F1 = 8 6 . 0 8 6 %.  I i s   w o r t h   m e n tio n i n g   t h at  t h r esu l ts   w e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  11 ,   No .   4 A u g u s t 2 0 2 1   :   3 5 1 9   -   3528   3526   o b tain ed   in   th i s   r esear ch   is   th b est  r esu lts   o n   t h is   d ataset  i n clu d i n g   o u r   p r eli m in ar y   w o r k   in   [ 9 ]   in   w h ic h   th e   b est  m o d el  in   [ 9 ]   ac h iev ed   F - m ea s u r o f   8 2 . 6 1 %.   Fig u r 5   d ep icts   th e   m o d el  ac cu r ac y   o n   b o th   t h tr ain in g   a n d   v alid atio n   d atase ts   d u r i n g   t h tr ain i n g   p h ase.   Fi g u r 6   s h o w s   t h lo s s   v al u f o r   b o th   t h tr ain i n g   a n d   th v alid atio n   d u r in g   th m o d el  tr ain in g   p h ase.   As d ep icted   in   b o th   f i g u r e s   n o   m o d el  o v er f itti n g   ca n   b s ee n   d u r in g   t h tr ai n in g   p h a s e.       T ab le  5 .   T h r esu lts   o b tain ed   o u t o f   th t h r ee   d ev elo p ed   m o d els   M o d e l   X G B o o st   S i a me se - b a se d   B ER T - b a se d   F1   8 6 . 0 8 6 %   8 9 . 0 4 8 %   9 2 . 9 9 %             Fig u r 5 .   T h co m p u ted   ac cu r ac y   o f   t h Sia m ese - b ased   m o d el  o n   t h tr ain i n g   a n d   v alid atio n   d ata s ets     Fig u r 6 .   T h lo s s   v alu e s   o n   t h tr ain i n g   an d   v alid atio n   o n   ea c h   ep o ch   d u r i n g   t h Sia m e s e - b ased   tr ain i n g       5.   DIS CU SS I O N     Hav i n g   clo s er   lo o k   to   th e x p er i m e n tatio n   r esu lt s ,   it  ca n   b s ee n   th at  t h B E R T - b ased   m o d el  is   o u tp er f o r m i n g   th o t h er   t w o   m o d el s   i n   ter m s   o f   F1   r esu lts   w it h   3 %   h i g h er   th a n   t h Sia m ese - b ased   m o d el  a n d   6 h i g h er   t h an   th e   XGB o o s t   o n e.   T h r es u lt s   g o   in   li n w it h   liter at u r as   th e   T r an s f o r m er s   b ased   m o d els   s u c h   as  B E R T   [ 8 ] ,   UL MFit  [ 4 7 ] ,   an d   E L MO   [ 4 8 ]   ar r ev o lu tio n izi n g   t h N L P   r esear ch .   T h e s e   t e c h n i q u e s   a r l e a d i n g   t h e   d e v e l o p e d   m o d e l s   i n   m a n y   N L P   t a s k s   s u c h   a s   t e x t   c l a s s i f i c a t i o n   a n d   s e q u e n c e - to - s e q u e n c e   lab eli n g .   I n   co n tr as to   t h o t h er   t w o   d ev elo p ed   m o d els,  t h B E R T - b ased   m o d el  w a s   ab le  t o   lear n   t h s e m a n tic  s i m ilar it y   a m o n g   i n p u q u es tio n s   p air s   w it h o u t h n e ed   f o r   p r e - en g in ee r ed   f ea t u r es.  T h is   ex p lai n s   th p o w er   o f   tr a n s f o r m er s   i n   h an d li n g   N L P   task s   m o r ef f i cien tl y   w h en   co m p ar ed   to   C NN  an d   R NN - b ased   m o d el s .   C o m p u ti n g   f ea t u r es c an   r ed u ce   t h ap p licab ilit y   o f   t h d ev elo p ed   m o d el  f o r   p r o d u c t i o n   s e r v i c e s .   U s e r s   m a y   g e t   n e g a t i v e   e x p e r i e n c e   w a i t i n g   f o r   t h e   m o d e l   t o   c o m p u t e   t h e   f e a t u r e s   a n d   t h e n   c l a s s i f y   th e   in p u t te x t.   Fo cu s i n g   o n   t h p r e - en g i n ee r ed   f ea tu r es,  s elec ted   f ea t u r es  b o asted   th r esu lts   o f   th d ev elo p ed   m o d el s .   T h S ia m e s e - b a s ed   m o d el   ac h iev ed   o n l y   a n   F1   v al u o f   7 8 . 1 8 6 w ith o u th p r e - e n g i n ee r ed   f ea t u r es  ( r el y i n g   o n l y   o n   t h e m b ed d in g   f ea t u r es).   T h is   in d icate s   h o w   p o w er f u t h f ea tu r es  s elec ted   to   tr ai n   th m o d els  w it h   m ar g i n   o f   r esu lts   en h a n ce m en r ea ch e s   1 0 f o r   th Sia m e s e - b a s ed   m o d el.   T h is   also   em p h a s izes   h o w   p o w er f u l   o u r   B E R T - b ased   m o d el   w h e n   co m p ar ed   to   t h S ia m e s e - b ased   m o d el  w ith o u t   f ea t u r es  w it h   d if f er en ce   o f   a r o u n d   1 5 % in   ter m s   o f   ac h iev ed   r esu lts   w it h o u t f ea t u r es.       6.   CO NCLU SI O N   AND  F U T U RE   WO RK   T h is   r esear ch   p r o p o s es  th r ee   d if f er e n ap p r o ac h es   to   a n al y z th e   s e m a n tic  s i m ilar it y   b et wee n   a   p air   o f   A r ab ic  q u e s tio n s .   T h f ir s m o d el  i s   s u p er v is ed - m ac h i n lear n in g   m o d el  u s i n g   XGB o o s tr ain ed   u s in g   a   s et  o f   p r e - e n g i n ee r ed   f ea t u r es ,   th s ec o n d   i s   a n   ad ap ted   Si a m ese - b ased   d ee p   lear n in g   r e cu r r en ar c h itect u r e   also   tr ain ed   u s in g   s et  o f   p r e - en g i n ee r ed   f ea t u r es,  an d   f in all y ,   p r e - tr ain ed   d ee p   b id ir e ctio n al  tr an s f o r m er   b ased   o n   B E R T   m o d el.   T h p r o p o s ed   ap p r o ac h es  w er ev al u ated   u s i n g   d ataset  co llected   b y   m a w d o o 3 . co m   ( s ee   s ec tio n   3 . 1 . ) .   T h ev al u atio n   r es u lts   s h o w   t h at  t h B E R T - b ased   m o d el  o u tp er f o r m s   t h o t h er   t w o   p r o p o s ed   m o d els  w it h   6 % o f   e n h a n ce m en t in   t h F1 - s co r ( s ee   s ec tio n   5 ) .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec  &   C o m p   E n g     I SS N:  2 0 8 8 - 8708       Usi n g   d ee p   lea r n in g   mo d els fo r   lea r n in g   s ema n tic  text  s imila r ity  o A r a b ic   q u esti o n s   ( Ma h mo u d   Ha mma d )   3527   I n   th is   r esear c h ,   w h av o n l y   co n s id er ed   d etec tin g   i f   t w o   q u esti o n s   ar s i m ilar   o r   n o t.  Dete ctin g   s i m ilar   q u es tio n s   to   g i v en   q u esti o n   u s in g   o u r   ap p r o ac h   is   a n   i n ter esti n g   a v en u o f   f u tu r w o r k .   B es id es t h at,   w p la n   to   e n h a n ce   t h B E R T - b ased   m o d el  ar ch itect u r b y   co m b i n i n g   th p r e - en g i n ee r ed   f ea tu r e s   to   it,  a n d   in v e s ti g ate  t h eir   i m p ac o n   t h m o d el  r esu l ts .   Mo r eo v er ,   we  ar p lan n i n g   to   ex tr ac f ea t u r es  f r o m   th B E R T   m o d el  a n d   f ee d   t h e m   to   o th er   m ac h in lear n i n g   ap p r o ac h es   u tili zi n g   t h f lex ib le  ar c h itec tu r o f   a n   en co d er -   d ec o d er   a r ch itectu r in   tr a n s f er   lear n i n g   m ec h an is m .       ACK NO WL E D G E M E NT S   T h is   r esear ch   is   p ar tiall y   f u n d ed   b y   J o r d an   Un i v er s it y   o f   S cien ce   an d   T ec h n o lo g y ,   R ese ar ch   Gr an t   Nu m b er : 2 0 1 7 0 1 0 7   an d   2 0 1 9 3 0 1 .       RE F E R E NC E S     [1 ]   J.  Ra m a p ra b h a ,   S .   Da s,  a n d   P .   M u k e rjee ,   S u rv e y   o n   se n ten c e   sim il a rit y   e v a lu a ti o n   u sin g   d e e p   lea r n in g ,   J o u rn a l   o P h y sic s:  Co n fer e n c e   S e rie s v o l.   1 0 0 0 ,   2 0 1 8 ,   A rt n o .   0 1 2 0 7 0 .   [2 ]   S .   Zh a n g ,   X .   Zh e n g ,   a n d   C.   Hu ,   su rv e y   o se m a n ti c   si m il a rit y   a n d   it a p p li c a ti o n   to   s o c ial  n e tw o rk   a n a l y sis,   2 0 1 5   IE EE   I n ter n a t io n a C o n fer e n c e   o n   Bi g   D a ta   ( Bi g   Da t a ) ,   S a n t a   Clara ,   CA ,   US A ,   2 0 1 5 ,   p p .   2 3 6 2 - 2 3 6 7 .   [3 ]   D.  S a ´ n c h e z ,   M .   Ba tet,   D.  Ise r n ,   a n d   A .   V a ll s,  On t o l o g y - b a s e d   se m a n ti c   sim il a rit y A   n e f e a tu re - b a se d   ap p ro a c h ,   Exp e rt sy ste ms   wit h   a p p li c a ti o n s ,   v o l .   39 ,   n o .   9 ,   p p .   7 7 1 8 - 7 7 2 8 ,   2 0 1 2 .   [4 ]   E.   Ag irre,  M .   Dia b ,   D.  Ce r,   a n d   A .   G o n z a lez - Ag irre,  S e m e v a l - 2 0 1 2   tas k   6 A   p il o o n   se m a n ti c   te x tu a si m il a rit y ,    Pro c e e d in g o t h e   Fi rs J o in Co n fer e n c e   o n   L e x ica a n d   Co m p u t a ti o n a S e ma n ti c s - V o lu me   1 Pro c e e d in g o th e   ma in   c o n fer e n c e   a n d   t h e   sh a re d   t a sk ,   a n d   Vo lu me   2 Pro c e e d i n g s   o t h e   S ixth   I n ter n a ti o n a W o rk sh o p   o n   S e ma n ti c   Eva lu a ti o n ,   A ss o c iatio n   f o C o m p u tati o n a L in g u isti c s,  2 0 1 2 ,   p p .   3 8 5 - 3 9 3 .   [5 ]   S e m E v a l2 0 1 9 ,   S e m a n ti c   e v a lu a ti o n   2 0 1 9 ,   2 0 1 9 .   [ On li n e ] .   A v a il a b le:   h t tp :/ /alt . q c ri. o rg /se m e v a l2 0 1 9 /.   [6 ]   T .   Ch e n ,   a n d   C.   G u e strin ,   X g b o o st:  A   sc a lab le  tre e   b o o stin g   sy ste m ,   KDD   ' 1 6 Pr o c e e d in g o f   th e   2 2 n d   ACM   S IGKD D In ter n a ti o n a l   Co n fer e n c e   o n   K n o wle d g e   Disc o v e ry   a n d   D a ta   M i n in g ,   2 0 1 6 ,   p p .   7 8 5 - 7 9 4 .   [7 ]   J.  M u e ll e r,   a n d   A .   T h y a g a r a jan ,   S iam e se   re c u rre n a rc h it e c tu re f o lea rn in g   se n ten c e   si m il a r it y ,   AA AI' 1 6 :   P ro c e e d in g o t h e   T h irti e th   AA A Co n fer e n c e   o n   Arti fi c ia I n telli g e n c e ,   2 0 1 6 ,   p p .   2 7 8 6 - 2 7 9 2 .   [8 ]   J.  De v li n ,   M .   - W .   Ch a n g ,   K.  L e e ,   K.  T o u tan o v a ,   Be rt:   P re - trai n in g   o f   d e e p   b id irec ti o n a tra n sf o rm e rs  f o lan g u a g e   u n d e rsta n d i n g ,   Co mp u ta t io n   a n d   L a n g u a g e ,   2 0 1 9 .   [9 ]   M .   Ha m m a d ,   M .   A L - S m a d i,   Q.  Ba n Ba k e r,   M .   A l - a sa ’d ,   N.   A l - k h d o u r,   M .   B.   Y o u n e s,  E.   Kh w a il e h ,   Qu e sti o n   t o   q u e stio n   sim il a rit y   a n a l y sis  u sin g   m o rp h o l o g ica l,   s y n tac ti c ,   se m a n ti c ,   a n d   lex ica f e a tu re s,   J o u rn a o Un ive rs a l   Co m p u ter   S c ien c e ,   v o l.   2 6 ,   n o .   6 ,   p p .   6 7 1 - 697 ,   2 0 2 0 .   [1 0 ]   F .   S a ric,  G .   G la v a s,  M .   Ka ra n ,   J.   S n a jd e r,   B.   D.   Ba sic ,   T a k e lab S y st e m f o m e a su ri n g   se m a n ti c   tex si m il a rit y ,   Fi rs J o in t   Co n fer e n c e   o n   L e x ica l   a n d   Co m p u t a ti o n a S e ma n t ics   ( * S EM ),   2 0 1 2 ,   p p .   4 4 1 - 4 4 8 .   [1 1 ]   T .   Zh u ,   M .   L a n ,   ECNU:   L e v e ra g in g   o n   e n se m b le  o f   h e tero g e n e o u f e a tu re a n d   in f o rm a ti o n   e n rich m e n f o c ro ss   lev e se m a n ti c   si m il a rit y   e sti m a t io n ,   Pr o c e e d in g o th e   8 th   I n ter n a ti o n a W o rk sh o p   o n   S e ma n ti c   Eva lu a ti o n   ( S e mEv a l   2 0 1 4 ) ,   2 0 1 4 ,   p p .   2 6 5 - 2 7 0 .   [1 2 ]   N.  P .   A .   Vo ,   O.  P o p e sc u ,   a n d   T .   Ca se ll i,   F BK - TR S V M   f o se m a n ti c   re late d n e ss   a n d   c o rp u p a tt e rn f o RT E ,   Pro c e e d in g o t h e   8 th   I n ter n a ti o n a W o rk sh o p   o n   S e ma n ti c   Eva lu a ti o n   ( S e mEv a 2 0 1 4 ) ,   2 0 1 4 ,   p p .   2 8 9 - 2 9 3 .   [1 3 ]   J.  Zh a o ,   a n d   M .   L a n ,   ECNU:  L e v e ra g in g   w o rd   e m b e d d in g to   b o o st  p e rf o rm a n c e   f o p a ra p h ra se   in   t w it ter,   Pro c e e d in g o t h e   9 th   I n ter n a ti o n a W o rk sh o p   o n   S e ma n ti c   Eva lu a ti o n   ( S e mEv a 2 0 1 5 ) ,   2 0 1 5 ,   p p .   3 4 - 39.   [1 4 ]   A .   S a n b o rn ,   a n d   J.   S k ry z a li n ,   De e p   lea rn in g   f o se m a n ti c   sim il a rit y ,   CS 2 2 4 d De e p   L e a rn in g   f o Na tu ra L a n g u a g e   P r o c e ss in g   S tan f o rd ,   CA ,   USA S tan f o rd   Un iv e rsity ,   2 0 1 5 .   [1 5 ]   S .   A ro ra ,   Y.  L ian g ,   a n d   T .   M a ,   A   si m p le  b u t o u g h - to - b e a b a s e li n e   f o se n ten c e   e m b e d d in g s,”   Pu b li s h e d   a a   c o n fer e n c e   p a p e r a IC L 2 0 1 7 ,   p p .   1 - 1 6 ,   2 0 1 7 .   [1 6 ]   S .   W a n ,   Y.   L a n ,   J.  G u o ,   J.  X u ,   L .   P a n g ,   X .   C h e n g ,   A   d e e p   a r c h it e c tu re   f o se m a n ti c   m a tch in g   w it h   m u lt ip le   p o siti o n a se n ten c e   re p re se n tatio n s,”   T h irti e th   AA AI   Co n fer e n c e   o n   Arti fi c ia I n telli g e n c e ,   2 0 1 6 .   [1 7 ]   J.  T ian ,   Z.   Zh o u ,   M .   L a n ,   Y.  W u ,   ECNU   a s e m e v a l - 2 0 1 7   tas k   1 :   L e v e ra g e   k e rn e l - b a se d   trad it io n a NL P   f e a tu re s   a n d   n e u ra n e tw o rk to   b u il d   a   u n iv e rsa m o d e f o m u lt il in g u a l   a n d   c ro ss - li n g u a se m a n ti c   tex t u a sim il a rit y ,   Pro c e e d in g o t h e   1 1 t h   In ter n a ti o n a W o rk sh o p   o n   S e ma n t ic E v a l u a ti o n   ( S e mEv a l - 2 0 1 7 ) ,   2 0 1 7 ,   p p .   1 9 1 - 1 9 7 .   [1 8 ]   D.  P rij a telj ,   J.  Ka li t a ,   J.  V e n tu r a ,   Ne u ra n e t w o rk f o se m a n ti c   tex tu a si m il a rit y ,   Pro c e e d in g o th e   1 4 t h   In ter n a t io n a C o n fer e n c e   o n   N a tu ra L a n g u a g e   Pro c e ss in g   ( ICON - 2 0 1 7 ) ,   2 0 1 7 ,   p p .   4 5 6 - 4 6 5 .   [1 9 ]   H.  He ,   a n d   J.  L in ,   P a irw ise   w o rd   in tera c ti o n   m o d e li n g   w it h   d e e p   n e u ra l   n e tw o rk f o se m a n ti c   sim il a rit y   m e a su re m e n t,   Pro c e e d in g s o f   N AA CL - HLT   2 0 1 6 ,   2 0 1 6 ,   p p .   9 3 7 - 9 4 8 .   [2 0 ]   H.  He ,   K.  G i m p e l,   J.  L in ,   M u lt i - p e rsp e c ti v e   se n ten c e   si m il a rit y   m o d e li n g   w it h   c o n v o lu ti o n a n e u ra n e t w o rk s,   Pro c e e d in g o t h e   2 0 1 5   C o n fer e n c e   o n   Emp irica l   M e th o d s in   Na t u ra L a n g u a g e   Pro c e ss in g ,   2 0 1 5 ,   p p .   1 5 7 6 - 1 5 8 6 .   [2 1 ]   J.  M u e ll e r,   a n d   A .   T h y a g a r a jan ,   S iam e se   r e c u rre n a rc h it e c tu re f o lea rn in g   se n ten c e   si m il a rit y ,   T h irti e th   AA AI   Co n fer e n c e   o n   Arti fi c i a I n telli g e n c e ,   2 0 1 6 ,   p p .   2 7 6 6 - 2 7 9 2 .   [2 2 ]   B.   Ag a r w a l,   H.  Ra m a m p iaro ,   H.  L a n g s e th ,   M .   Ru o c c o ,   A   d e e p   n e tw o rk   m o d e f o p a ra p h ra se   d e tec ti o n   in   sh o rt   tex m e ss a g e s,   In fo rm a ti o n   Pro c e ss in g   &   M a n a g e me n t ,   v o l.   5 4 ,   n o .   6 ,   p p .   9 2 2 - 9 3 7 ,   2 0 1 8 .   [2 3 ]   Y.  L e ,   Z.  J .   W a n g ,   Z .   Q u a n ,   J .   H e ,   B .   Y a o ,   A C V - T R E E :   A   n e w   m e t h o d   f o r   s e n t e n c e   s i m i l a r i t y   m o d e l i n g ,   P r o c e e d i n g s   o f   t h e   T w e n t y - S e v e n t h   I n t e r n a t i o n a l   J o i n t   C o n f e r e n c e   o n   A r t i f i c i a l   I n t e l l i g e n c e   ( I J C A I ) ,   2 0 1 8 ,   p p .   4 1 3 7 - 4 1 4 3 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I n t J   E lec  &   C o m p   E n g ,   Vo l.  11 ,   No .   4 A u g u s t 2 0 2 1   :   3 5 1 9   -   3528   3528   [2 4 ]   J.  T ian ,   M .   L a n ,   Y.  W u ,   J .   W a n g ,   L .   Qiu ,   S .   L i,   L .   Ju n ,   L .   S i ,   A n   a d v e rsa rial  jo in lea rn i n g   m o d e fo lo w - re so u rc e   lan g u a g e   se m a n ti c   tex tu a si m il a rit y ,   Eu ro p e a n   C o n fer e n c e   o n   I n fo rm a t io n   Retrie v a ( ECIR   2 0 1 8 ) ,   v o l.   1 0 7 7 1 ,   2 0 1 8 ,   p p .   8 9 - 1 0 1 .   [2 5 ]   X .   T a n g ,   S .   C h e n ,   L .   Do ,   Z.   M i n ,   F .   Ji,  H.  Y u   e a l. Im p ro v in g   m u lt il in g u a se m a n ti c   tex tu a sim il a rit y   w it h   sh a re d   se n ten c e   e n c o d e f o l o w - re so u rc e   lan g u a g e s,   G ro u n d   Al ,   2 0 1 8 .   [2 6 ]   Y.  Ya n g ,   S .   Yu a n ,   D.  Ce r,   S . - y .   Ko n g ,   N.  Co n sta n t ,   P .   P il a r   e a l. L e a rn in g   se m a n ti c   te x tu a sim il a rit y   f ro m   c o n v e rsa ti o n s,   Pro c e e d i n g o T h e   T h ir d   W o rk sh o p   o n   Re p re se n ta ti o n   L e a rn i n g   f o r   NL P ,   p p .   1 6 4 - 1 7 4 ,   2 0 1 8 .   [2 7 ]   A.   - S .   M o h a m m a d ,   Z.   Ja ra d a t,   A .   - A .   M a h m o u d ,   Y.   Ja ra rwe h ,   P a ra p h ra se   id e n t if ica ti o n   a n d   se m a n ti c   tex sim il a rit y   a n a l y sis in   A ra b ic   n e w s   tw e e ts u sin g   lex ica l,   s y n tac ti c ,   a n d   se m a n ti c   f e a tu re s,   In fo rm a ti o n   Pro c e ss in g   M a n a g e me n t ,   v o l.   5 3 ,   n o .   3 ,   p p .   6 4 0 - 6 5 2 .   2 0 1 7 .   [2 8 ]   D.  S a g h e e r,   a n d   F .   S u k k a r,   A ra b ic  se n ten c e c las si f ic a ti o n   v ia  d e e p   lea rn in g ,   In ter n a ti o n a J o u r n a o Co mp u ter   Ap p li c a ti o n s ,   v o l .   1 8 2 ,   n o .   5 ,   p p .   40 - 4 6 ,   2 0 1 8 .   [2 9 ]   S .   A lza h ra n i,   Cro ss - lan g u a g e   s e m a n ti c   si m il a rit y   o f   Ara b i c - En g li sh   sh o rt  p h ra se a n d   se n ten c e s,”   J o u rn a o f   Co mp u ter   S c ien c e   ( J CS ) ,   v o l.   1 2 ,   n o .   1 ,   p p .   1 - 18 ,   2 0 1 6 .   [3 0 ]   D.  S u leim a n ,   A .   Aw a jan ,   N.  A l - M a d i,   De e p   lea rn in g   b a se d   tec h n iq u e   f o p lag iaris m   d e t e c t i o n   i n   a r a b i c   t e x t s ,   2017  I n t e r n a t i o n a l   C o n f e r e n c e   o n   N e w   T r e n d s   i n   C o m p u t i n g   S c i e n c e s   ( I C T C S ) ,   A m m a n ,   J o r d a n ,   2 0 1 7 ,   p p .   2 1 6 - 2 2 2 .   [3 1 ]   M .   A l - S u h a i q i,   M .   A .   Ha z a a ,   M .   A lb a re d ,   A r a b ic  En g li sh   c r o ss - li n g u a p lag iarism   d e tec ti o n   b a se d   o n   k e y p h ra se s   e x trac ti o n ,   m o n o li n g u a a n d   m a c h in e   lea rn i n g   a p p r o a c h ,   As ia n   J o u rn a o Res e a rc h   i n   C o m p u ter   S c ien c e ,   v o l.   2 ,   n o .   3 ,   p p .   1 - 12 ,   2 0 1 8 .   [3 2 ]   H.  Ch e rro u n ,   A .   A lsh e h ri  e a l. ,   Disg u ise d   p lag iarism   d e tec ti o n   in   A ra b ic   tex d o c u m e n ts,   2 0 1 8   2 n d   In ter n a ti o n a l   Co n fer e n c e   o n   Na t u ra l   L a n g u a g e   a n d   S p e e c h   Pro c e ss in g   ( ICNL S P ) ,   A lg iers ,   A lg e ria,   2 0 1 8 ,   p p .   1 - 6.   [3 3 ]   J.  F e rre ro ,   D.  S c h w a b ,   H.  Ch e rro u n   e a l . ,   W o rd   e m b e d d in g - b a se d   a p p r o a c h e f o m e a su rin g   se m a n ti c   sim il a rit y   o f   A r a b ic - En g li sh   se n ten c e s,   In t e rn a ti o n a l   Co n fer e n c e   o n   Ara b ic  L a n g u a g e   Pro c e ss in g   ( ICAL 2 0 1 7 ) v o l.   7 8 2 ,   2 0 1 7 ,   p p .   1 9 - 3 3 .   [3 4 ]   R.   M .   Ba d ry ,   a n d   I .   F .   M o a w a d ,   A   se m a n ti c   tex s u m m a r i z a t i o n   m o d e l   f o r   A r a b i c   t o p i c - o r i e n t e d ,   I n t e r n a t i o n a l   C o n f e r e n c e   o n   A d v a n c e d   M a c h i n e   L e a r n i n g   T e c h n o l o g i e s   a n d   A p p l i c a t i o n s   ( A M L T A   2 0 1 9 ) v o l .   9 2 1 ,   2 0 1 9 ,   p p .   5 1 8 - 5 2 8 .   [3 5 ]   P .   S h a p iro ,   a n d   K.  Du h ,   M o rp h o lo g ica w o rd   e m b e d d in g f o Ara b ic   n e u ra m a c h in e   tran sla ti o n   in   lo w - re so u rc e   se tt in g s,   Pro c e e d in g o t h e   S e c o n d   W o rk sh o p   o n   S u b w o rd /Ch a ra c ter   L Eve M o d e ls ,   2 0 1 8 ,   p p .   1 - 1 1 .   [3 6 ]   E.   L o p e r,   a n d   S .   Bird ,   NL T K :   th e   n a tu ra lan g u a g e   to o lk it ,   Pro c e e d in g o f   t h e   ACL   In ter a c ti v e   Po ste a n d   De mo n stra ti o n   S e ss io n s ,   2 0 0 4 ,   p p .   2 1 4 - 2 1 7 .   [3 7 ]   M .   A b d u l - M a g e e d ,   M .   T .   Dia b ,   M .   Ko ra y e m ,   S u b jec ti v it y   a n d   se n ti m e n a n a l y sis  o f   m o d e rn   sta n d a rd   A ra b ic ,   Pro c e e d in g o t h e   4 9 t h   A n n u a l   M e e ti n g   o th e   Asso c ia ti o n   fo r   Co mp u ta t io n a l   L in g u isti c s:  Hu ma n   L a n g u a g e   T e c h n o l o g ies ,   2 0 1 1 ,   p p .   5 8 7 - 5 9 1 .   [3 8 ]   A .   B.   S o li m a n ,   K.  Ei ss a ,   S .   R.   El - Be lt a g y ,   A R A V EC:   A   se o f   Ara b ic   w o rd   e m b e d d in g   m o d e ls  f o u se   in   A ra b ic   NL P ,   Pro c e d i a   Co m p u ter   S c ien c e ,   v o l.   1 1 7 ,   p p .   2 5 6 - 2 6 5 ,   2 0 1 7 .   [3 9 ]   W .   T .   Yih ,   K.  T o u tan o v a ,   J.  C.   P latt ,   C.   M e e k ,   L e a rn in g   d isc ri m in a ti v e   p ro jec ti o n f o r   tex s i m i l a r i t y   m e a s u r e s ,   P r o c e e d i n g s   o f   t h e   f i f t e e n t h   c o n f e r e n c e   o n   c o m p u t a t i o n a l   n a t u r a l   l a n g u a g e   l e a r n i n g ,   P o r t l a n d ,   U S A ,   2 0 1 1 ,   p p .   2 4 7 - 2 5 6 .   [4 0 ]   J.  F ried m a n ,   T .   Ha stie,  R.   T ib sh iran e a l. ,   A d d it iv e   lo g isti c   re g re ss io n a   sta ti stica v ie w   o f   b o o st in g   (w it h   d isc u ss io n   a n d   a   re jo i n d e b y   th e   a u th o rs),   T h e   a n n a ls  o st a ti stics ,   v o l.   2 8 ,   n o .   2 ,   p p .   3 3 7 - 4 0 7 ,   2 0 0 0 .   [4 1 ]   J.  H.  F rie d m a n ,   G r e e d y   f u n c ti o n   a p p r o x im a ti o n a   g ra d ien b o o sti n g   m a c h in e ,   An n a ls  o f   sta ti stics ,   v o l.   2 9 ,   n o .   5 ,   p p .   1 1 8 9 - 1 2 3 2 ,   2 0 0 1 .   [4 2 ]   S .   Ch o p ra ,   R.   Ha d se ll ,   Y.  L e Cu n   e a l. ,   L e a rn in g   a   si m il a rit y   m e tri c   d isc ri m in a ti v e l y ,   w it h   a p p li c a ti o n   to   f a c e   v e ri f ica ti o n ,   CVP R ,   v o l.   1 p p .   5 3 9 - 5 4 6 ,   2 0 0 5 .   [4 3 ]   K.  Ch e n ,   a n d   A .   S a lma n ,   E x trac ti n g   sp e a k e r - sp e c if i c   in f o r m a ti o n   w it h   a   re g u lariz e d   S iam e se   d e e p   n e tw o rk , ”  Pro c e e d in g o t h e   2 4 t h   In ter n a ti o n a Co n fer e n c e   o n   Ne u ra l   In f o r ma ti o n   Pro c e ss in g   S y ste ms ,   2 0 1 1 ,   p p .   2 9 8 - 3 0 6 .   [4 4 ]   S .   Io f f e ,   a n d   C.   S z e g e d y ,   Ba t c h   n o rm a li z a ti o n A c c e l e ra ti n g   d e e p   n e tw o rk   tr a in in g   b y   re d u c in g   in tern a c o - v a riate   sh if t,   Pro c e e d in g o th e   3 2 n d   In ter n a ti o n a Co n fer e n c e   o n   I n ter n a ti o n a Co n fer e n c e   o n   M a c h in e   L e a rn i n g   v o l.   3 7 ,   2 0 1 5 ,   p p .   4 4 8 - 4 5 6 .   [4 5 ]   N.  S riv a sta v a ,   G .   Hin to n ,   A .   Kriz h e v sk y ,   I.   S u tsk e v e r,   R.   S a lak h u t d in o v Dro p o u t a   sim p le  w a y   to   p re v e n n e u ra l   n e tw o rk f ro m   o v e r f it ti n g ,   T h e   j o u rn a o ma c h in e   le a rn i n g   re se a rc h ,   v o l.   15 ,   n o .   1 ,   p p .   1 9 2 9 - 1 9 5 8 ,   2 0 1 4 .   [4 6 ]   A .   M .   Da i,   a n d   Q.  V .   L e ,   S e m i - su p e rv ise d   s e q u e n c e   lea rn in g ,   Ad v a n c e in   n e u r a in fo rm a t i o n   p r o c e ss in g   sy ste ms ,   2 0 1 5 ,   p p .   3 0 7 9 - 3 0 8 7 .   [4 7 ]   J.  Ho w a rd ,   a n d   S .   Ru d e r,   Un iv e rsa lan g u a g e   m o d e f in e - tu n in g   f o tex c las si f ica ti o n ,   Pro c e e d i n g o th e   5 6 t h   An n u a l   M e e ti n g   o t h e   Asso c ia t io n   fo r C o mp u ta ti o n a l   L i n g u isti c s,   M e lb o u m e ,   A u stra li a ,   v o l.   1 ,   2 0 1 8 ,   p p .   3 2 8 - 3 3 9 .   [4 8 ]   M .   E.   P e ters ,   M .   Ne u m a n n ,   M .   Iy y e r,   M .   G a rd n e r,   C.   Clark ,   K.  Lee   e t   a l. De e p   c o n tex tu a li z e d   w o rd   re p re se n tatio n s,   Pr o c .   o NAA CL ,   2 0 1 8 .   [4 9 ]   A .   V a s w a n i,   N.  S h a z e e r,   N.  P a r m a r,   J.  Us z k o re it ,   L .   Jo n e s,  A .   N .   G o m e z ,   Ka is e r,   I.   P o l o su k h i n ,   A tt e n ti o n   is  a ll   y o u   n e e d ,   Ad v a n c e s in   n e u ra l   in f o rm a ti o n   p ro c e ss in g   sy ste ms ,   2 0 1 7 ,   p p .   5 9 9 8 - 6 0 0 8 .   [5 0 ]   D.  Ba h d a n a u ,   K.  Ch o ,   Y.  Be n g io ,   Ne u ra m a c h in e   tran sla ti o n   b y   jo in tl y   lea rn in g   to   a li g n   a n d   tran sla te,   c o n fer e n c e   p a p e r a IC L R ,   2 0 1 5 ,   p p .   1 - 15 .       Evaluation Warning : The document was created with Spire.PDF for Python.