I AE I nte rna t io na l J o urna l o f   Art if icia l In t ellig ence   ( I J - AI )   Vo l.   9 ,   No .   1 Ma r ch   2 0 2 0 ,   p p .   81 ~ 90   I SS N:  2252 - 8938 ,   DOI : 1 0 . 1 1 5 9 1 /i j ai. v 9 .i 1 . p p 81 - 90           81       J o ur na l ho m ep a g e h ttp : //ij a i . ia esco r e. co m   A deep  learning  b a sed techni que  for pla g ia ris m  d ete ction: a  co m pa ra tive s tud y       E l M o s t a f a   H a m bi F a o uzia   B ena bb o u   In f o rm a ti o n   T e c h n o l o g y   a n d   M o d e li n g   L a b o ra to ry   S c ien c e ,   F a c u lt y   o f   sc ien c e   Be n   M ’sik ,   Ha ss a n   II  Un iv e rsit y   o f   Ca sa b lan c a ,   M o ro c c o       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Au g   2 7 ,   2 0 1 9   R ev i s ed   Oct  2 0 ,   2 0 1 9   A cc ep ted   No v   5 ,   2 0 1 9       T h e   e a se   o f   a c c e ss   to   th e   v a rio u re so u rc e o n   th e   w e b   e n a b led   t h e   d e m o c ra ti z a ti o n   o a c c e ss   to   in fo rm a ti o n   b u a th e   sa m e   ti m e   a ll o w e d   th e   a p p e a ra n c e   o f   e n o r m o u p lag iarism   p ro b lem s.  M a n y   tec h n iq u e o p lag iaris m   w e re   id e n ti f ied   in   th e   li tera tu re ,   b u t h e   p lag iarism   o f   id e a   ste e ls   th e   f o re m o st  tro u b les o m e   to   d e tec t,   b e c a u se   it   u se d iff e r e n tex m a n ip u lati o n   a t h e   sa m e   ti m e .   In d e e d ,   a   f e w   stra teg ie h a v e   b e e n   p r o p o se d   to   p e rf o rm   th e   se m a n ti c   p lag iari s m   d e tec ti o n ,   b u th e y   a re   stil n u m e ro u c h a ll e n g e to   o v e rc o m e .   Un li k e   t h e   e x isti n g   sta tes   o f   th e   a rt,   th e   p u r p o se   o f   th is  stu d y   is  to   g iv e   a n   o v e rv i e w   o f   d iffere n p ro p o siti o n   f o p lag iaris m   d e tec ti o n   b a se d   o n   th e   d e e p   lea rn in g   a lg o rit h m s.  T h e   m a in   g o a o f   th e se   a p p ro a c h e is  to   p r o v id e   h ig h   q u a li ty   o f   w o rld o se n ten c e v e c to re p re se n tatio n .   I n   th is  p a p e r,   w e   p ro p o se   a   c o m p a ra ti v e   stu d y   b a s e d   o n   a   se o f   c rit e rio n li k e V e c to r   re p re se n tatio n   m e th o d ,   L e v e T re a t m e n t,   S im il a rit y   M e th o d   a n d   Da tas e t.   On e   re su lt   o f   th is  stu d y   is  th a m o st  o f   re se a rc h e a re   b a se d   o n   w o rld   g ra n u larity   a n d   u se   th e   w o rd 2 v e c   m e th o d   f o wo rd   v e c to re p re se n tatio n ,   w h ich   so m e ti m e s   is  n o su it a b le  to   k e e p   th e   m e a n in g   o f   th e   w h o le  se n ten c e s.  Eac h   te c h n iq u e   h a stre n g th a n d   w e a k n e ss e s;   h o w e v e r,   n o n e   is q u it e   m a tu re   f o se m a n ti c   p lag iaris m   d e tec ti o n .   K ey w o r d s :   Dee p   L ea r n i n g   Do c2 v ev   Neu r al  n et w o r k   P lag iar is m   P r e - p r o ce s s in g   W o r d 2 v ec   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   E l M o s taf Ha m b i,   I n f o r m a tio n   T ec h n o lo g y   an d   Mo d elin g   L ab o r ato r y   Scie n ce ,   Facu lt y   o f   s cie n ce   B en   M s i k ,   Hass a n   I I   Un i v er s it y   o f   C a s ab lan ca ,   C asab lan ca   2 0 0 0 0 ,   Mo r o c co .   E m ail:  h a m b i m o s ta f a9 1 @ g m a il.c o m       1.   I NT RO D UCT I O N   T h e   ad v an ce m e n o f   i n f o r m atio n   tech n o lo g y   ( I T )   an d   p ar ticu lar l y   t h W eb   h as  im p r e s s i v el y   ex p an d ed   th e   ac ce s s ib ilit y   o f   d ata  an d   lead s   t h u s   to   th e   r is i n g   o f   p lag iar i s m .   P lag iar is m   i s   p r ac tice  o f   ta k i n g   s o m eo n el s e ' s   w o r k   o r   id ea s   an d   p ass i n g   t h e m   o f f   as o n e 's  o w n .   Sev er al  p la g iar is m   tec h n iq u es a r p er f o r m ed   b y   s o m d is h o n e s t a u t h o r s ,   an d   h er b ello w   s o m e   o f   th e m   [ 1 - 2 ] :     C o p y - p as te,   tex t u all y   ( w o r d   b y   w o r d ) th co n ten o f   t h te x is   co p ied   f r o m   o n o r   m o r s o u r ce s   an d   co u ld   b s lig h tl y   m o d if ied .     P ar ap h r asin g t h g r a m m ar   o f   th te x is   ch a n g ed   th e,   w o r d s   ar e   ch an g ed   b y   t h eir   s y n o n y m s .   T h e   s en te n ce s   ar r e o r g an ized   f r o m   th o r i g in a w o r k   an d   s o m p ar ts   o f   th te x t a r d elete d .     Fals r ef er e n ce s ,   r ef er e n ce s   ar ch an g ed   an d   s o m e ti m es a r f alse o r   th at  d o   n o t e v e n   e x is t.     P lag iar is m   w i th   tr a n s la tio n ,   t h co n ten t s   ar tr an s lated   an d   u s ed   w it h o u t r ef er en ce   to   t h o r ig i n al  w o r k .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938     I n t J   A r ti f   I n tell ,   Vo l.  9 ,   No .   1 Ma r ch   20 20 :   81     90   82     P lag iar is m   o f   id ea s ,   it  is   th e   m o s d i f f icu lt  p lag iar i s m   to   d etec b ec au s i is   m o r co m p licated   th a n   t h e   p r ev io u s   t y p es,  b ec a u s i is   n o s i m p le  m a n ip u lat io n s   m a d o n   th e   tex t,   b u a   m o r a d v an ce d   f o r m   w h ic h   co u ld   in cl u d all  t h o th er   tech n iq u e s .     I n   g e n er al,   w ca n   cla s s i f y   t h p lag iar is m   tec h n iq u es   o n   th r ee   s tr ate g ie s le x ical,   s y n t ax ial  a n d   s e m a n tic  m et h o d s .   T h p lag ia r is m   o f   id ea s   m o s o f te n   i n co r p o r ates  r ef o r m u latio n s   as  w e ll  as  s e m a n tic  a n d   lex ical  c h an g es  w h ic h   m ak it   v er y   h ar d   to   d etec t [ 3 ]   T h L ex ical  m et h o d s   co n s id e r   tex a s   a   s eq u e n ce   o f   c h ar a cter s   o r   ter m s   [ 4 ] .   T h p r e - p r o ce s s in g   tech n iq u i n cl u d es  to k e n izati o n ,   lo w er ca s i n g ,   p u n c tu at io n   r e m o v al   an d   s te m m i n g   [ 5 ] .   T h m o r co m m o n   ter m s   th d o cu m e n ts   h a v e,   t h m o r s i m ilar   t h e y   ar e.   Me th o d s   s u c h   as  lo n g est  co m m o n   s u b s eq u en ce ,     n - g r a m s   an d   f in g er p r in ar co n s id er ed   as  th is   k i n d   o f   m et h o d s .   T h co m p ar is o n   u n its   ad o p ted   in clu d w o r d s ,   s en te n ce s ,   h u m a n   d efin ed   s lid in g   w i n d o w   o r   an   n - g r a m   [ 6 - 1 2 ] .   T h Sy n tactica m eth o d s   u s tex t s   s y n tactica l   u n i ts   f o r   co m p ar in g   t h s i m ila r it y   b et w ee n   d o cu m e n ts .   I m p l icitl y ,   w co n s id er   th at  s i m ila r   d o cu m e n t s   w o u ld   h av e   s i m ilar   s y n tac tical  s tr u ct u r e.   T h is   m et h o d   m a k es   u s o f   c h ar ac ter is tic s   s u c h   a s   P OS  tag   to   co m p ar th e   s i m ilar it y   b et w ee n   d i f f er e n d o cu m e n ts   [ 1 3 ] .   T h Se m a n tic   m et h o d s   u s a   s e m a n tic  s i m il ar it y   f o r   co m p ar i n g   d o cu m en ts .   I n   th i s   ap p r o ac h ,   d if f er e n s e m a n tic  f ea t u r es  wh ich   in cl u d ( S y n o n y m s ,   h y p o n y m s ,   h y p er n y m s ,   s e m a n tic   d ep en d en cie s )   [ 2 - 3 ]   ar ex tr ac ted   f r o m   t h s o u r ce   d o cu m e n ts   a n d   th e n   u s ed   to   tr ac o u t   t h e   p lag iar is m   ca s e   f r o m   t h co r p u s .   T h p lag iar i s m   d etec tio n   is   co n s id er ed   as  p ar o f   Natu r al  L a n g u a g e   P r o ce s s in g   ( NL P ) .   He n ce ,   b ased   o n   N L P   tec h n iq u es   m a n y   s o l u tio n s   h av e   b ee n   p r o p o s ed   f o r   le x ical  o r   S y n tactica l p la g iar is m ,   an d   m o s t a r b ased   o n   th e   co n ce p t e x tr ac tio n   u s i n g   co r p u s   lik W o r d Net  [ 1 4 - 1 6 ] .     W ith   th clas s ical  ap p r o ac h es,  t w o   d o cu m e n ts   t h at  s h ar th e   s a m w o r d s   ar co n s id er ed   s im ilar ,   an d   th w o r d   o r d er   is   n o t r esp ec te d   w h ich   w ill  m a k lo s s   o f   t h tr u m ea n i n g   o f   d o cu m e n t.  I n   r ec en y ea r s ,   d ee p   lear n in g   tec h n iq u es  h a v b ee n   th s u b j ec o f   s e v er al  r ese ar ch es  an d   i n   d if f er en d o m ain s ,   f r o m   p atter n   r ec o g n itio n   to   N L P   p r o b le m s .   T h h i g h   p er f o r m a n ce   o b tain ed   ar v er y   en co u r ag i n g   a n d   m ak e   it   p o s s ib le  to   co n s id er   th u s o f   t h ese  tec h n iq u es  i n   t h f ie ld   o f   p lag ia r is m   d etec tio n   [ 1 7 - 1 8 ] .   T h tech n iq u es  b ased   o n   Dee p   L ea r n i n g   f o r   p lag iar is m   d etec tio n ,   in cl u d n o o n l y   t h e   co n tex t u al  ( s e m an t ic)   lev el  o f   th d o cu m e n b u t   o ls o   th s y n tactica l   an d   le x ic al  lev el  in   v ec to r   r ep r esen tat i o n .   T h r e m ain d er   o f   th is   p a p er   is   o r g an ized   as   f o llo w s .   T h f ir s s ec tio n   p r esen t s   b ac k g r o u n d   co n ce p t.  T h s ec o n d   s ec tio n   d ef i n es  r elat ed   w o r k .   T h th ir d   s ec tio n   co n tai n s   d ee p   an al y s co n ce r n i n g   o u r   co m p ar is o n   s tu d y .   T h last   s ec t io n   i n tr o d u ce s   t h co n cl u s io n   an d   f u tu r e   w o r k .       2.   RE S E ARCH   M E T H O D   I n   t h is   s ec tio n   w e   w ill   m en tio n   t h d i f f er en t   tec h n iq u es   u s e d   b y   t h p la g iar is m   d etec tio n   ap p r o ac h es,  w h et h er   in   ter m s   o f   it s   r ep r esen tatio n   o f   its   te x t s   o r   th m et h o d s   th o s ca lcu late  t h s i m i lar it y :   a.   Neu r al  n et w o r k   b ased   m o d els   W o r d   em b ed d in g s   ar t y p o f   w o r d   r ep r esen tatio n   w h ich   s to r es  th co n te x t u al  i n f o r m at io n   in   lo w - d i m en s io n al   v ec to r .   T h is   ap p r o ac h   g ai n ed   e x tr e m e   p o p u lar it y   w i th   t h i n tr o d u ctio n   o f   W o r d 2 Vec   in   2 0 1 3 ,   g r o u p s   o f   m o d el s   to   lear n   t h e   w o r d   e m b ed d in g s   i n   co m p u tatio n a ll y   ef f ic ien t   w a y .   A n d   Do c2 Vec   ca n   b e   s ee n   a n   ex te n s io n   o f   W o r d 2 Vec   w h o s g o al  i s   to   cr ea te  r e p r esen tatio n al  v ec to r   o f   d o cu m e n t o r   p ar ag r ap h .   Wo rd2 v ec is   m o d el  u s i n g   n eu r al  n et w o r k   u s ed   to   p r o d u ce   d is tr ib u ted   r ep r esen tati o n   o f   w o r d .   So m e   r esear ch er   s a y s   t h at  i s   n o t   d ee p   lear n i n g   tec h n iq u e,   b ec au s e   it  is   s i m p le  b i - la y er ed   n eu r al   n et w o r k   ar ch itect u r e.   T h is   m o d el  is   s h allo w ,   t w o - la y er   n eu r al  n et w o r k s   th a ar tr ain ed   to   r ec o n s tr u ct  lin g u is t ic   co n tex t s   o f   w o r d s .   W o r d 2 v ec   tak es a s   its   in p u t a   l ar g co r p u s   o f   te x t a n d   p r o d u ce s   v ec to r   s p ac e,   t y p icall y   o f   s ev er al  h u n d r ed   d im e n s io n s ,   w it h   ea c h   u n iq u w o r d   in   t h co r p u s   [ 1 9 ] .   Do c2 v ec :   Do c 2 v ec   is   an   u n s u p er v is ed   alg o r ith m   to   g e n er at v ec to r s   r ep r esen tatio n   o f   s e n ten ce s ,   p ar ag r ap h s   an d   d o cu m e n ts   [ 2 0 ] .   I ts   m o d el  is   b ased   o n   W o r d 2 Vec ,   w it h   o n l y   ad d in g   an o t h er   v ec to r   ( p ar ag r ap h   I D)   to   th e   in p u t.  T h ar ch itect u r o f   Do c 2 Vec   m o d el  is   s h o w n   Fi g u r 1 .           Fig u r 1 .   Do c2 v ec   ar ch itectu r e   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   A r ti f   I n tell   I SS N:  2252 - 8938       A   d ee p lea r n in g   b a s ed   tec h n iq u fo r   p la g ia r is d etec tio n :   a   co mp a r a tive  s tu d ( E l Mo s ta fa   Ha mb i )   83   I n s tead   o f   u s in g   j u s t   n ea r b y   wo r d s   to   p r ed ict  th w o r d ,   w e   a ls o   ad d ed   an o th er   f ea t u r v ec t o r ,   w h ic h   is   d o cu m e n t - u n iq u e.   b.   Dee p   lear n in g   b ased   m o d els   Dee p   lear n in g   is   s et  o f   lear n in g   m et h o d s   atte m p ti n g   to   m o d el  d ata  w it h   co m p le x   ar ch itect u r es  co m b i n i n g   d if f er e n t   n o n - li n ea r   tr a n s f o r m atio n s .   T h ele m e n tar y   b r ick s   o f   d ee p   lear n i n g   ar t h n e u r al  n et w o r k s   th at   ar e   co m b i n ed   to   f o r m   t h d ee p   n eu r al  n et w o r k s .   T h er ex is t se v er al  t y p es o f   ar ch itec tu r es  f o r   n eu r al  n et w o r k s :   Rec urs iv neura net w o rk s   ( RNN) :   h av b ee n   s u cc e s s f u l,  f o r   in s tan ce ,   i n   lear n i n g   s eq u en ce   a n d   tr ee   s tr u ct u r es  in   n at u r al  la n g u a g e   p r o ce s s in g ,   m ai n l y   p h r ase   a n d   s e n te n ce   co n t in u o u s   r ep r esen tat io n s   b ased   o n   w o r d   e m b ed d in g   [ 2 1 ] .   Sia m ese  L ST M   f o L ea rning   do cu m e nts  Si m ila rit y :   L S T is   k in g   o f   r ec u r r en n e u r al  n et w o r k   an d   it  i s   g r ea w h en   w h av a n   e n ti r s eq u en ce   o f   w o r d s   o r   s e n ten ce s .   T h is   i s   b ec au s R N Ns  ca n   m o d el  a n d   r e m e m b er   th r elatio n s h ip s   b et w ee n   d if f er en w o r d s   an d   s en te n ce s .   Ma n h at tan   L ST m o d els  h a v t w o   n et w o r k s   L ST Mle f a n d   L S T Mr ig h w h ich   p r o ce s s   o n o f   th e   s e n te n ce s   i n   g i v e n   p air   in d ep en d en tl y .   Sia m e s L ST M,   v er s io n   o f   Ma n h a ttan   L ST w h er b o th   L ST Mle f t a n d   L ST Mr ig h h av s a m tied   w ei g h ts   s u c h   t h at   L ST Mle f =   L ST Mr ig h t.  S u c h   m o d el  i s   u s e f u f o r   task s   li k d u p licate  q u e r y   d etec tio n   a n d   q u er y   r an k i n g .   Her e,   d u p licate  d ete ctio n   tas k   i s   p er f o r m ed   to   f i n d   if   t w o   d o cu m e n ts   ar s i m ilar   o r   n o t.  Si m i lar   m o d el   ca n   b tr ai n ed   f o r   q u er y   r an k i n g   u s i n g   h it   d ata  f o r   g iv e n   q u er y   a n d   it s   m atch in g   r esu lt s   as   p r o x y   f o r   s i m ilar it y   [ 2 1 ] .   Co nv o lutio na neura net w o rk :   C NN  is   clas s   o f   d ee p ,   f ee d - f o r w ar d   ar tif icial  n eu r al  n et w o r k s   th a u s es  v ar iatio n   o f   m u lt ila y er   p er ce p tio n s   d esi g n ed   to   r eq u ir m i n i m al  p r ep r o ce s s in g .   T h ese  ar in s p ir ed   b y   a n i m al   v is u al  co r tex .   C NN s   ar g e n er all y   u s ed   i n   co m p u ter   v is io n h o w e v er ,   th e y   h av r ec e n t l y   b ee n   ap p lied   to   v ar io u s   N L P   tas k s   li k tex t c lass i f icatio n   [ 2 1 ] .   Dee Str uct ured  Se m a ntic   M o del  ( DSSM ) :   DSSM  s tan d s   f o r   Dee p   Stru ct u r ed   Se m a n tic  Mo d el,   o r   m o r g en er al,   Dee p   Se m a n tic  Si m ilar it y   Mo d el.   I is   d ee p   n eu r al  n et w o r k   ( DNN)   m o d el lin g   tec h n iq u f o r   r ep r esen tin g   te x t   s tr i n g s   ( s e n t en ce s ,   q u er ies,  p r ed icate s ,   e n ti t y   m e n tio n s ,   etc. )   i n   a   co n ti n u o u s   s e m a n tic   s p ac e   an d   m o d ellin g   s e m a n tic  s i m ila r it y   b et w ee n   t w o   te x t stri n g s .   c.   Oth er   m o d els   Oth er   m e th o d s   u s ed   to   co n s tr u ct   v ec to r   r ep r esen tatio n   o f   g iv e n   te x t c an   b f o u n d :   G L O V E i s   a n   u n s u p er v i s ed   lear n in g   al g o r ith m   f o r   o b tain i n g   v ec to r   r ep r esen tatio n s   f o r   w o r d s .   T r ain in g   i s   p er f o r m ed   o n   a g g r e g ated   g l o b al  w o r d - w o r d   co - o cc u r r en ce   s tatis tic s   f r o m   co r p u s ,   an d   th r esu lt in g   r ep r esen tatio n s   s h o w ca s in ter esti n g   li n ea r   s u b s tr u ct u r es o f   t h w o r d   v ec to r   s p ac [ 2 2 ] .   I nfe rSent :   is   s e n ten ce   e m b e d d in g s   m et h o d   th at  p r o v id es  s e m an tic  r ep r esen tatio n s   f o r   E n g l is h   s e n ten ce s .   I t   is   tr ain ed   o n   n a tu r al  la n g u a g in f er en ce   d ata  an d   g e n er alize s   w ell  to   m an y   d if f er e n t ta s k s   [ 2 2 ] .   d.   Si m i lar it y   m et h o d s   Fin d i n g   s i m ilar it y   b et w ee n   e le m e n ts   i s   th co r o f   s en te n ce   s i m ilar it y .   I n   th liter at u r e,   th er ar m an y   m etr ics  f o r   ca lcu lati n g   s i m il ar it y .   T h is   s ec tio n   s h o w s   d if f er en ap p r o ac h es  u s ed   to   ca lcu late  s i m i lar it y   b et w ee n   ele m e n t s :   Co s ine  s i m ila rit y :   is   a   m ea s u r o f   s i m ilar it y   b et w ee n   t w o   n o n - ze r o   v ec to r s   o f   a n   i n n er   p r o d u ct  s p ac th a t   m ea s u r es  t h co s in o f   th a n g le  b et w ee n   th e m .   T h co s in o f   0 °  is   1 ,   an d   it  is   less   th an   1   f o r   an y   an g le  i n   th e   in ter v a l [ 0 ,   π]   r ad ian s   [ 2 3 ] .   J a cc a rd  ind ex :   also   k n o w n   a s   I n ter s ec tio n   o v er   U n io n   a n d   t h J ac ca r d   s i m ilar it y   co ef f icie n t ( o r ig i n all y   g i v e n   th Fre n c h   n a m e   co ef f icie n d co m m u n it y   b y   P au J ac ca r d ) ,   is   s tati s tic  u s ed   f o r   g au g i n g   t h s i m ilar it y   a n d   d iv er s it y   o f   s a m p le  s et s .   T h J ac ca r d   co ef f icien m ea s u r e s   s i m ilar it y   b et w ee n   f i n ite  s a m p le   s ets an d   i s   d ef i n ed   as th s ize  o f   th i n ter s ec tio n   d iv id ed   b y   t h s ize  o f   t h u n io n   o f   t h s a m p le  s ets [ 2 3 ] .   E ucli dea Dis t a nce:   r ef er s   to   E u clid ea n   d is tan ce .   W h e n   d ata  is   d en s o r   c o n tin u o u s ,   th is   i s   th b est   p r o x i m it y   m ea s u r e.   T h E u cli d ea n   d is ta n ce   b et w ee n   t w o   p o in ts   is   t h le n g t h   o f   th p at h   c o n n ec ti n g   t h e m ,   a n d   it is   o b tain ed   w it h   th P y t h a g o r ea n   T h eo r em   [ 2 3 ] .   L o ng est  co mm o n   s u bs e qu en ce   ( L CS)   m et ho d co n s i s ts   o f   f i n d in g   th e   lo n g est   s u b s eq u e n ce   co m m o n   to   al l   s eq u en ce s   i n   s et   o f   s eq u en ce s .   T h lo n g e s co m m o n   s u b s eq u en ce   p r o b le m   i s   clas s ic  co m p u ter   s c ien ce   p r o b lem ,   th b asi s   o f   d ata  co m p ar i s o n   p r o g r a m s   s u ch   as  t h d if f   u tili t y   an d   h a s   ap p licati o n s   in   co m p u tatio n al  lin g u i s tic s   an d   b io in f o r m atic s   [ 2 4 ] .   Wo rd  M o v er s   Dis t a nce  ( WM D) :   u s es  w o r d   e m b ed d in g s   to   ca lcu late  th s i m ilar itie s ,   an d   p r ec is el y ,   it  u s es   n o r m alize d   B ag - of - w o r d s   an d   w o r d   E m b ed d in g s   to   ca lcu late   th d is ta n ce   b et w ee n   d o cu m e n ts   [ 2 5 ] .       3.   RE L AT E D   WO RK   Ou r   s t u d y   f o cu s e s   o n   t h d et ec tio n   o f   s e m a n tic  p lag iar is m   m o r p r ec is el y   t h id en ti f ica tio n   o f   t h p lag iar is m   o f   id ea s   b et w ee n   t w o   g iv e n   te x t s ,   as  il lu s tr ated   b elo w   w d u g   o n   m e th o d s   t h a d etec th i s   t y p o f   p lag iar is m :   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938     I n t J   A r ti f   I n tell ,   Vo l.  9 ,   No .   1 Ma r ch   20 20 :   81     90   84   In   [ 2 6 ]   p r o p o s ed   p lag iar is m   d etec tio n   s y s te m ,   w h ich   r el y   o n   u s s en te n ce s   co m p ar is o n   i n   t w o   p h ases .   T h e y   f ir s ex tr ac w o r d   v ec to r s   b y   w o r d 2 v ec   alg o r i th m ,   a n d   th e n   r e m o v P er s ia n   s to p   w o r d s   w h ile  tex p r e - p r o ce s s i n g .   Af ter   th at ,   f o r   ea ch   s en te n ce   an   av er a g o f   all  w o r d   v ec to r s   is   ca l cu l ated .   A f ter   f ea tu r e   ex tr ac tio n ,   in   p h a s 1 ,   ea ch   s en te n ce   in   s u s p icio u s   d o c u m e n is   co m p ar ed   w i th   all  t h s en te n ce s   in   th e   s o u r ce   d o cu m en t s .   C o s in e   s i m ilar it y   i s   u s ed   as   co m p ar is o n   m e tr ic.   A f ter   th is   s tep   w h i ch   h elp s   to   f i n d   th e   n ea r est  s en ten ce s   i n   r ea ti m e,   in   p h ase  2 ,   le x ical  s i m ilar i t y   o f   t w o   s en te n ce s   is   ev al u a ted   b y   t h J ac ca r d   s i m ilar it y   m ea s u r e.   T w o   s e n te n ce s   w h ic h   p ass   J ac ca r d   s i m i l ar it y   th r e s h o ld   co n s id er ed   as  p lag iar is m   at  f in a s tep .   In   [ 2 7 ]   p r o p o s ed   th u s e   w o r d 2 v ec   m o d el  in   o r d er   to   co m p u te  v ec to r   o f   f ea tu r e s   f o r   ev er y   w o r d .   T h ey   ch o o s d o cu m en ts   f r o m   t h c o r p u s   its e lf ,   h o w e v er   t h d o cu m en ts   u s ed   f o r   test i n g   w a s   p r o ce s s ed   an d   th e   p r e - p r o ce s s in g   t h at  w as  m ad is   s to p   w o r d s   r em o v al.   T h s i m ilar it y   b et w ee n   v ec to r s   w a s   co m p u ted   b y   u s i n g   co s in s i m ilar it y .   [ 2 4 ]   T h ai m   o f   t h is   ap p r o ac h   i s   ev alu ati n g   th e   v al id it y   o f   u s i n g   th e   d is tr ib u te d   r ep r esen tatio n   to   d ef i n t h w o r d   s i m ilar it y .   T h e y   in tr o d u ce   th r ee   m et h o d s   b ased   o n   th f o llo w i n g   t h r ee   d o cu m en s i m ilar ities f o r   t w o   d o cu m e n t s T h len g t h   o f   th e   lo n g est  co m m o n   s u b s eq u e n c ( L C S)  d iv id ed   b y   th le n g t h   o f   t h s h o r ter   d o cu m e n t,   th e   lo ca m a x i m al  v al u o f   t h le n g th   o f   L C S,  an d   th e   lo ca m a x i m a l   v alu e   o f   t h w e ig h ted   le n g th   o f   L C S.  T h d is tr ib u ted   r ep r esen tat io n   w as  o b tai n ed   f r o m   n o   p ar ticu lar   d a ta  b y   w o r d 2 v ec .   An o th er   ap p r o ac h   u s e s   t h p r i n cip le  o f   Dee p   Str u ct u r ed   Se m an tic  Mo d el  ( DS SM)   p r o p o s ed   b y   [ 2 8 ] .   DSSM i s   d ee p   lear n in g - b ase d   tech n iq u th a t is p r o p o s ed   f o r   s e m an tic  u n d er s ta n d in g   o f   t ex tu a l d ata.   I m ap s   s h o r tex t u al  s tr i n g s ,   s u c h   as  s en te n ce s ,   to   f ea t u r v ec to r s   in   lo w - d i m e n s io n al  s e m a n ti s p ac e.   T h en   th e   v ec to r   r ep r esen tatio n s   ar u tili ze d   f o r   d o cu m en t r etr iev al  b y   co m p ar i n g   th s i m ilar it y   b et wee n   d o cu m en t s   a n d   q u er ies.  Af ter   o b tain i n g   th s e m an tic  f ea t u r v ec to r s   f o r   ea ch   p air ed   s n ip p e ts   o f   tex t,  c o s in s i m ilar it y   is   u tili ze d   to   m ea s u r t h s e m a n tic  s i m i lar it y   b et w ee n   th p a ir .   Si m ilar l y ,   w it h   th p r ev io u s   m et h o d s ,   in   [ 2 9 ]   d ee p   lear n in g   d o cu m e n ts   o r   t ex ts   ca n   b r ep r esen ted   as  v e cto r s   b y   t h u s i n g   d o cu m en to   v ec to r   tech n iq u e   ( d o c2 v ec ) .   A n d   t h d etec tio n   o f   p lag iar is m   w i ll  b d o n b y   s i m p le   co m p ar is o n   b et w e en   all   s e n ten ce s   o f   ea ch   t w o   d o cu m e n ts   a n al y s ed .   T h ap p r o ac h   p r o p o s ed   in   [ 3 0 ]   is   b ased   o n   co n v er ti n g   p ar ag r ap h   to   v ec to r s   a n d   it's   i n s p i r ed   b y   th e   m et h o d s   f o r   lear n in g   t h w o r d   v e cto r s .   T h in s p ir atio n   i s   th at  th w o r d   v ec to r s   ar ask e d   to   co n tr ib u te  to   a   p r ed ictio n   task   ab o u th n e x t   w o r d   in   t h s e n te n ce .   So ,   d es p ite  th f ac t h at  t h w o r d   v ec to r s   ar in itialized   r an d o m l y ,   t h e y   ca n   ev e n t u all y   ca p tu r s e m a n tic s   as  a n   i n d ir ec r esu lt  o f   t h p r ed ictio n   t ask .   I w i ll  u s t h is   id ea   in   th eir   p ar ag r ap h   v ec to r s   in   s i m i lar   m a n n er .   T h p ar ag r ap h   v ec to r s   ar also   as k ed   to   co n tr ib u te  to   th e   p r ed ictio n   task   o f   t h n e x w o r d   g iv e n   m a n y   co n te x ts   s a m p le d   f r o m   th p ar ag r ap h .   T h ese  ap p r o ac h es  [ 2 9 - 3 0 ]   ar u s ed   to   p er f o r m   s i m ilar it y   d etec tio n   b et w ee n   t h d o cu m e n v ec to r s   b u also   u s t h co s in to   co m p ar t h v ec to r s .   I n   p ap er   [ 3 1 ]   th ey   r ep r esen ea c h   w o r d   w   b y   v ec to r .   I co n s tr u ct s   t h ese   w o r d   v ec to r s   u s in g   G lo Ve.   T h is   ap p r o ac h   u s e s   t h r ec u r s i v n eu r al   n et w o r k s   al g o r ith m   to   h av e   v ec to r   r ep r esen tatio n   o f   s e n te n ce   a n d   u s t h co s in f o r   ca lcu la te  t h s i m ilar i t y .   I n   [ 3 2 ]   t w o   in p u t   s en te n ce s   ar p r o ce s s ed   i n   p ar allel  b y   id en tica n e u r al  n e t w o r k s ,   o u tp u tti n g   s en ten ce   r ep r esen tatio n s .   T h e   s en te n ce   r ep r esen tatio n s   ar co m p ar ed   b y   t h s tr u ct u r ed   s i m ilar it y   m ea s u r e m e n la y er .   T h s i m ilar it y   f ea t u r es   ar th en   p ass ed   to   f u ll y - co n n ec ted   la y er   f o r   co m p u ti n g   th s i m ilar it y   s co r e.   C o s i n d is t an ce   m ea s u r es  t h e   d is tan ce   o f   t w o   v ec to r s   ac co r d in g   to   th e   an g le  b et w ee n   t h e m .   T h u s o f   co s i n to   d etec s i m ilar it y   b et w ee n   s en te n ce s   r e m ain s   s o lu tio n   th at  ca r r ies  m a n y   r is k s .   I n f er Sen t   [ 2 2 ]   is   an   NL P   tech n iq u f o r   u n iv er s a l   s en te n ce   r ep r esen tatio n   d ev el o p ed   b y   Face b o o k   th at  u s es  s u p er v i s ed   tr ain i n g   to   p r o d u c h ig h   tr an s f er ab le   r ep r esen tatio n s .   T h e y   u s ed   B i - d ir ec tio n al  L ST w it h   atte n tio n   t h at  co n s is te n tl y   s u r p ass ed   m a n y   u n s u p er v is ed   t r ain i n g   m et h o d s   s u c h   as  th S k ip T h o u g h v ec to r s .   T h e y   also   p r o v id P y to r ch   i m p le m en ta tio n   th at  th e y   u s ed   to   g en er ate   s e n ten ce   e m b ed d i n g .   So ,   t h is   a p p r o ac h   n ee d s   to   d e f i n s i m ilar it y   m ea s u r to   co m p ar t w o   v ec to r s ,   a n d   f o r   th at  g o al,   it ll b th co s i n e   s i m ilar it y .   T h au th o r s   i n   [ 3 3 ]   u s ed   w o r d   e m b ed d in g ,   v ec to r   r e p r esen tatio n s   o f   ter m s ,   co m p u ted   f r o m   u n lab elled   d ata,   t h at  r ep r esen t   ter m s   i n   s e m a n tic  s p ac i n   w h ic h   p r o x i m it y   o f   v ec to r s   ca n   b in ter p r eted   as   s e m a n tic  s i m ilar it y .   T h e y   p r o p o s to   g o   f r o m   w o r d - le v el  to   tex t - le v el  s e m a n tics   b y   co m b in i n g   i n s ig h t s   f r o m   m et h o d s   b ased   o n   ex ter n al  s o u r ce s   o f   s e m a n tic   k n o w led g e   w it h   w o r d   e m b ed d in g .   T h e y   d er iv m u ltip le  t y p es   o f   m eta - f ea t u r es   f r o m   t h co m p ar i s o n   o f   th e   w o r d   v ec to r s   f o r   s h o r tex p air s ,   a n d   f r o m   th v ec to r   m ea n s   o f   th eir   r esp ec ti v e   w o r d   e m b ed d in g .   T h e   f ea t u r es   r ep r esen ti n g   lab elled   s h o r te x t   p air s   ar u s ed   to   tr ai n   a   s u p er v i s ed   lear n i n g   al g o r ith m .   In   [ 2 5 ]   p r esen t h W o r d   Mo v er s   Di s tan ce   ( W MD ) ,   n o v el  d is tan ce   f u n ctio n   b et w ee n   tex d o cu m en t s .   T h i s   w o r k   i s   b ased   o n   r ec en r e s u lt s   in   w o r d   e m b ed d in g   th a t   lear n   s e m a n ticall y   m ea n in g f u r ep r esen tatio n s   f o r   w o r d s   f r o m   lo ca co - o cc u r r e n ce s   in   s e n te n ce s .   T h W MD   d is tan ce   m ea s u r es   th d is s i m ilar it y   b et w ee n   t w o   tex d o cu m e n t s   as   th e   m in i m u m   a m o u n o f   d is ta n c t h at  t h e m b ed d ed   w o r d s   o f   o n d o cu m en n ee d   to   tr av el”  to   r ea ch   th e m b ed d ed   w o r d s   o f   an o th er   d o cu m e n t.   T h is   ar ticle  [ 3 4 ]   p r o p o s ed   an   in n o v a tiv e   w o r d   e m b ed d in g - b ased   s y s te m   d e v o ted   to   ca lcu la tin g   t h s e m an tic  s i m ilar it y   i n   A r ab ic  s e n te n ce s .   T h m ai n   i d ea   is   to   ex p lo it  v ec to r s   a s   wo r d   r ep r esen tatio n s   i n   m u lti d i m en s io n al   s p ac i n   o r d er   to   ca p tu r th s e m a n tic   an d   s y n tactic   p r o p er ties   o f   wo r d s .   I DF  w e ig h ti n g   a n d   P ar t - of - Sp ee c h   ta g g in g   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   A r ti f   I n tell   I SS N:  2252 - 8938       A   d ee p lea r n in g   b a s ed   tec h n iq u fo r   p la g ia r is d etec tio n :   a   co mp a r a tive  s tu d ( E l Mo s ta fa   Ha mb i )   85   ar ap p lied   o n   th ex a m i n ed   s en te n ce s   to   s u p p o r th id en t if icatio n   o f   w o r d s   t h at  ar h i g h l y   d escr ip ti v i n   ea ch   s e n ten ce .   I n   p ap er   [ 3 5 ]   th e y   ad d r ess   th is s u o f   f in d i n g   an   e f f ec ti v v ec to r   r ep r esen tatio n   f o r   v er y   s h o r tex t   f r ag m e n t.  B y   e f f ec ti v t h e y   m ea n   t h at  t h r ep r esen tat io n   s h o u ld   g r asp   m o s t   o f   t h s e m an tic  i n f o r m a tio n   i n   th at  f r ag m e n t.  Fo r   th i s ,   t h e y   u s s e m a n tic  w o r d   e m b ed d i n g   to   r ep r esen i n d iv id u al  w o r d s ,   an d   w e   lear n   h o w   to   w e ig h   e v er y   w o r d   in   t h tex th r o u g h   t h u s e   o f   tf - id f   ( ter m   f r eq u e n c y - i n v er s d o cu m e n t   f r eq u en c y )   in f o r m atio n   to   ar r iv at  an   o v er all  r ep r esen tatio n   o f   t h e   f r ag m e n co m p ar in g   t w o   t f - id f   v ec to r s   i s   d o n th r o u g h   s tan d ar d   co s in s i m ilar it y .   [ 3 6 ]   T h is   p ap er   in v esti g a tes  t h ef f ec ti v e n es s   o f   s ev er al  s u c h   n ai v e   tech n iq u es,   as   w ell   as   tr ad itio n al  t f - id f   s i m ilar it y ,   f o r   f r a g m en ts   o f   d if f er en t le n g th s .   T h is   m ai n   co n tr ib u tio n   i s   f ir s s tep   to w ar d s   h y b r id   m eth o d   th at  co m b i n e s   th s tr en g th   o f   d en s d is tr ib u ted   r ep r esen tatio n s - as   o p p o s ed   to   s p ar s ter m   m atc h i n g - w i th   th e   s tr e n g th   o f   tf - id f   b ased   m et h o d s   to   a u to m atica ll y   r ed u ce   t h i m p ac o f   les s   i n f o r m ati v ter m s .   T h is   ap p r o ac h   o u tp er f o r m s   t h ex is t in g   tec h n iq u es   in   to y   e x p er i m e n tal  s et - u p ,   lead in g   to   th co n cl u s io n   th a th co m b in at io n   o f   w o r d   e m b ed d i n g   a n d   t f - id f   i n f o r m at io n   m ig h lead   to   a   b etter   m o d el  f o r   s e m a n tic  co n ten w ith in   v er y   s h o r tex f r ag m e n t s .   B et w ee n   t w o   s u c h   r ep r esen tatio n s   th e y   th en   ca lc u late  t h co s i n s i m il ar it y .   I n   t h ar ch itectu r e   p r o p o s ed   in   [ 3 7 ] ,   w o r d   e m b ed d in g   is   f i r s tr ain ed   o n   A P I   d o cu m en t s ,   tu to r ials ,   an d   r ef er en ce   d o cu m e n ts ,   an d   th en   ag g r eg ated   in   o r d er   to   e s ti m ate  s e m a n tic  s i m ilar ities   b et w ee n   d o cu m e n ts   w h er th s i m ilar it y   b et w ee n   v ec to r s   is   u s u all y   d ef i n ed   as  co s in s i m i lar it y .   I n   p ap er   [ 3 8 ] ,   th e y   p r o p o s to   co m b i n ex p lic it  s e m a n tic  an a l y s i s   ( E S A )   r ep r esen tatio n s   a n d   w o r d 2 v ec   r ep r esen tatio n s   a s   w a y   to   g en er ate   d en s er   r ep r esen tatio n s   an d ,   co n s eq u e n tl y ,   b etter   s im i la r it y   m ea s u r b et w ee n   s h o r tex ts .   I n   [ 3 9 ]   th e y   p r o p o s ed   s em a n tic  s i m ilar it y   ap p r o ac h   f o r   p ar ap h r ase  id en ti f icatio n   in   A r ab ic  tex ts   b y   co m b i n i n g   d i f f er e n t   tech n iq u es   o f   Nat u r al  L a n g u a g P r o ce s s i n g   N L P   s u ch   as T er m   Fre q u e n c y   I n v er s Do c u m en Fre q u en c y   T F - I DF  tec h n iq u e.   T h g o al  is   t o   r ep r esen w o r d   v ec to r   u s in g   w o r d 2 v ec .   An d   also ,   to   g en er ate   s e n te n ce   v ec to r   r ep r esen tatio n   a n d   af t er   ap p ly i n g   s i m i lar it y   m ea s u r e m e n o p er atio n   b ased   o n   d if f er e n m etr i cs  o f   co m p ar is o n ,   s u c h   as:  C o s i n Si m i lar it y   an d   E u clid ea n   Dis t an ce .   T h is   ap p r o ac h   w as  e v al u ated   o n   t h Op e n   So u r ce   A r ab ic  C o r p u s   OS AC   an d   o b tain ed   p r o m is i n g   r ate.   [ 4 0 ]   T h is   p ap er   p r o p o s es  n o v el  d ee p   n eu r al   n et w o r k - b ase d   ap p r o ac h   th at  r elie s   o n   co ar s e - g r ain ed   s en te n ce   m o d ellin g   u s i n g   c o n v o l u tio n al  n e u r al  n e t w o r k   an d   lo n g   s h o r t - ter m   m e m o r y   m o d el,   co m b i n ed   w it h   s p ec i f ic  f i n e - g r ai n ed   w o r d - le v el  s i m i lar it y   m atc h i n g   m o d el.   I n   t h is   co m p o n en t,  th e y   r ep r esen ev er y   s en te n ce   u s in g   th eir   j o in C N an d   L ST ar ch itect u r e.   T h C NN   is   ab le  to   lear n   th e   lo ca f ea t u r es   f r o m   w o r d s   to   p h r ases   f r o m   th t ex t,  w h ile  t h L ST lear n s   th lo n g - ter m   d ep en d en c ies   o f   th tex t.  Mo r s p ec if icall y ,   t h e y   f ir s tl y   tak th w o r d   e m b ed d in g   a s   i n p u t   to   th eir   C NN  m o d el,   in   w h i ch   v ar io u s   t y p e s   o f   co n v o lu tio n s   an d   p o o lin g   tech n iq u e s   ar ap p lied   to   ca p tu r th m ax i m u m   in f o r m a tio n   f r o m   t h te x t.  Nex t,  th e   en co d ed   f ea t u r es  ar e   u s ed   as   i n p u t   to   t h L ST n et w o r k .   Fi n all y ,   t h lo n g - ter m   d ep en d e n cies  lear n ed   b y   th e   L ST b ec o m e s   th s e m a n tic  s en te n ce   r ep r esen tatio n .   [ 4 1 ]   T h is   ap p r o ac h   p r o p o s es  to   ex p lici tl y   m o d el  p air w i s e   w o r d   i n ter ac tio n s   a n d   p r ese n a   n o v el  s i m ilar it y   f o cu s   m ec h an i s m   t o   id en tify   i m p o r tan co r r esp o n d en ce s   f o r   b etter   s im ilar it y   m ea s u r e m e n t.  T h e y   u s ed   Glo Ve  w o r d   e m b ed d in g s   f o r   v ec to r   r ep r esen tatio n   o f   w o r d   an d   t h eir   m o d el  c o n tain s   f o u r   m aj o r   co m p o n e n t s 1 .   B id ir ec tio n al   L o n g   S h o r t - T er m   Me m o r y   Net - w o r k s   ( B i - L ST Ms)   ar u s ed   f o r   co n tex t   m o d eli n g   o f   i n p u s en ten ce s .   2 .   A   n o v e p air w is w o r d   i n ter ac tio n   m o d eli n g   tech n iq u en co u r a g es  d ir ec t   co m p ar is o n s   b et w ee n   w o r d   co n tex t s   ac r o s s   s e n te n ce s .   C o s in d is ta n ce   ( co s )   m ea s u r es  t h d is ta n ce   o f   t w o   v ec to r s   b y   t h an g le  b et w e en   th e m ,   w h ile  L 2 E u clid ea n   d is ta n ce   ( L 2 E u c lid )   an d   d o tp r o d u ct  d is tan ce   ( Do tP r o d u ct)   m ea s u r m a g n it u d d if f er en ce s .   W u s t h r ee   s i m ilar it y   f u n c tio n s   f o r   r ich er m ea s u r e m e n t.   3 .   n o v el  s i m ilar it y   f o cu s   la y er   h e lp s   th m o d el  id en t if y   i m p o r tan p air w is w o r d   i n ter ac tio n s   ac r o s s   s en ten ce s . 4 .   A   la y er   d ee p   co n v o lu tio n al  n eu r al  n et w o r k   ( C o n v Net)   co n v er ts   t h s i m ilar i t y   m ea s u r e m en p r o b le m   in to   a   p atter n   r ec o g n itio n   p r o b lem   f o r   f in al  cla s s i f icatio n .   T h m o d el  o f   [ 4 2 ]   is   a p p lied   t o   ass ess   s e m an tic  s i m ilar it y   b et w ee n   s e n ten ce s .   Fo r   th ese  a p p licatio n s ,   th e y   p r o v id w o r d - e m b ed d in g   v ec to r s   w o r d 2 v ec   to   t h L ST Ms,  w h ich   u s f i x ed   s iz v e cto r   to   en co d th e   u n d er l y in g   m ea n i n g   ex p r es s e d   in   s en ten ce   ( ir r esp ec tiv o f   t h p ar ticu lar   w o r d in g / s y n tax ) .   B y   r es tr ictin g   s u b s eq u en t   o p er atio n s   to   r el y   o n   a   s i m p le  Ma n h a ttan   m etr ic,   th e y   co m p el  t h s en te n ce   r ep r esen tat io n s   lear n ed   b y   t h eir   m o d el  to   f o r m   h ig h l y   s tr u ct u r ed   s p a ce   w h o s e   g eo m etr y   r ef lec ts   co m p lex   s e m a n tic   r elatio n s h ip s .   [ 4 3 ]   T h is   p ap er   p r o p o s es  m o d el  f o r   co m - p ar i n g   s e n te n ce s   t h at  u s e s   m u ltip lic it y   o f   p er s p ec tiv es.  W f ir s t   m o d el   ea ch   s en ten ce   u s in g   a   co n v o lu tio n al   n e u r al  n et w o r k   th at   ex tr ac ts   f ea tu r es   at   m u ltip le  le v el s   o f   g r an u lar i t y   a n d   u s e s   m u ltip le  t y p es   o f   p o o lin g .   W th e n   co m p ar o u r   s en ten ce   r ep r esen tatio n s   a s e v er al  g r a n u lar i ties   u s i n g   m u lt ip le  s i m il ar it y   m etr ics  ( co s ,   L E u clid ) .   W ap p ly   o u r   m o d el   to   th r ee   task s ,   in c lu d i n g   t h Mic r o s o f R esear c h   p ar ap h r ase  id en tif icat io n   tas k   an d   t w o   Se m E v al  s e m an tic   tex t u al  s i m ilar it y   tas k s .   I n   th is   p ap er   [ 4 4 ] ,   th e y   p r esen t c o n v o l u tio n a l n e u r al  n et w o r k   ar ch i tectu r f o r   r er an k i n g   p a ir s   o f   s h o r t   tex ts ,   w h er t h e y   lear n   t h o p ti m al   r ep r esen tat io n   o f   te x t   p air s   an d   s i m ilar it y   f u n ctio n   to   r elate   t h e m   i n   a   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938     I n t J   A r ti f   I n tell ,   Vo l.  9 ,   No .   1 Ma r ch   20 20 :   81     90   86   s u p er v i s ed   w a y   f r o m   t h a v ail ab le  tr ain i n g   d ata.   T h eir   n et wo r k   tak e s   o n l y   w o r d s   i n   t h i n p u t,  th u s   r eq u ir in g   m i n i m al  p r ep r o ce s s in g .   I n   p ar ticu lar ,   th e y   co n s id er   th tas k   o f   r er an k i n g   s h o r te x p air s   w h er ele m e n t s   o f   th p air   ar s en te n ce s .   T h e y   test   o u r   d ee p   lear n in g   s y s te m   o n   t w o   p o p u lar   r etr iev al  t ask s   f r o m   T R E C :   Qu est io n   A n s w er i n g   a n d   Mic r o b lo g   R etr iev al.   [ 4 5 ]   T h is   s y s te m   co m b i n es  co n v o l u tio n   a n d   r ec u r r en n e u r al   n et w o r k s   to   m ea s u r t h s e m an tic  s i m ilar it y   o f   s e n ten ce s .   I u s e s   co n v o l u tio n   n et w o r k   to   tak ac co u n o f   th lo ca co n tex o f   w o r d s   an d   an   L ST to   co n s id er   th g lo b al  co n tex o f   s e n te n ce s .   T h is   co m b in a tio n   o f   n et w o r k s   h elp s   to   p r eser v th r elev a n in f o r m a tio n   o f   s en te n ce s   a n d   i m p r o v es  t h e   ca lcu latio n   o f   t h e   s i m ilar it y   b et w ee n   s e n te n ce s .   A cc o r d in g   to   t h i s   s tate  o f   t h ar w e   h a v b ee n   ab le  to   d ete ct  th e   s tr e n g t h s   a n d   w ea k n ess e s   o f   ea ch   ap p r o ac h   th at  h elp ed   u s   to   b u ild   o u r   ap p r o ac h .   T h T ab le  1   r e p r esen ts   s u m m ar y   co m p ar ed   to   th m eth o d s   ab o v e:       T ab le  1 .   C o m p ar ativ tab le   A p p r o a c h   V e c t o r   r e p r e s e n t a t i o n   L e v e l   t r e a t me n t   S i mi l a r i t y   me t h o d   D a t a se t / r e so u r c e s   C r i t i c a l   W o r d   S e n t e n c e   [ 2 6 ]   W o r d 2 v e c   A v e r a g e   se n t e n c e   C o si n e ,   Jac c a r d   P A N   2 0 1 6   L o ss o f   t h e   me a n i n g   o f   t h e   se n t e n c e .   [ 2 7 ]   W o r d 2 v e c   -   w o r d   C o si n e   O S A C   A r a b i c   c o r p u s   Tw o   d o c u me n t s   sh a r e   t h e   s a me   v e c t o r s c o u l d   b e   n o n - p l a g i a r i z e d .   T h e   u se   o f   c o si n e   t o   d e t e c t   si mi l a r i t y   b e t w e e n   se n t e n c e r e mai n a   so l u t i o n   t h a t   c a r r i e man y   r i sk s .   U se   c o si n e   si m i l a r i t y   t o   c o mp u t e   a   si m i l a r i t y   b e t w e e n   se n t e n c e s.   [ 3 2 ]   W o r d 2 v e c   -   w o r d   C o si n e   M i c r o so f t   R e se a r c h   P a r a p h r a se   C o r p u s   [ 3 3 ]   W o r d 2 v e c   -   w o r d   C o si n e   M i c r o so f t   R e se a r c h   P a r a p h r a se   C o r p u s   d a t a   se t   [ 3 4 ]   W o r d 2 v e c   -   w o r d   C o si n e   M i c r o so f t   R e se a r c h   V i d e o   D e scri p t i o n   C o r p u s   [ 3 5 ]   W o r d 2 v e c   -   w o r d   C o si n e   W i k i p e d i a   d a t a se t   [ 3 6 ]   W o r d 2 v e c   tf - i d f   -   w o r d   C o si n e   W i k i p e d i a   d a t a se t   [ 3 7 ]   W o r d 2 v e c   -   w o r d   C o si n e   W i k i   c o r p u s   [ 3 8 ]   W o r d 2 v e c   -   w o r d   C o si n e   -   [ 3 9 ]   W o r d 2 v e c   -   w o r d   C o si n e   Eu c l i d e a n   D i st a n c e   A r a b i c   C o r p u s   O S A C   [ 2 4 ]   W o r d 2 v e c   -   w o r d   L C S     P A N   2 0 1 3   L C S   p r o b l e m se e k s a   l o n g e st   su b se q u e n c e   o f   e v e r y   me mb e r   o f   a   g i v e n   se t   o f   v e c t o r s,  l o se   t h e   se ma n t i c   a sp e c t .   [ 2 8 ]   D e e p   S t r u c t u r e d   S e man t i c   M o d e l   ( D S S M )   -   w o r d   C o si n e   S e mEv a l   2 0 1 5   En g l i sh   S T S   T h e   t r e a t me n t   i a t   t h e   l e v e l   o f   se n t e n c e   o r   smal l   t e x t s.   [ 2 9 ]   -   D o c 2 v e c   se n t e n c e   C o si n e   -   S l o w n e ss o f   t h e   sy st e m.   T h e   se man t i c   a sp e c t   o f   a   p a r a g r a p h   i s   l o st   b e c a u se   t h e   c o mp a r i so n   i d o n e   se n t e n c e   b y   se n t e n c e .   [ 3 0 ]   -   D o c 2 v e c   se n t e n c e   C o si n e   - S t a n f o r d   se n t i me n t   t r e e b a n k   d a t a se t   -   I M D B   d a t a se t   [ 3 1 ]   G l o V e   R e c u r si v e   n e u r a l   n e t w o r k s   se n t e n c e   C o si n e   S e mEv a l - 2 0 1 5   T a sk   2   U se   o f   d o c 2 v e c   i s   b e t t e r   t h e n   u se s R N N .   T h e   se man t i c   a sp e c t   o f   a   p a r a g r a p h   i s   l o st .   [ 2 2 ]   W o r d 2 v e c   I n f e r S e n t   se n t e n c e   C o si n e   -   T h e   u se   o f   c o si n e   t o   d e t e c t   si mi l a r i t y   b e t w e e n   se n t e n c e r e mai n a   so l u t i o n   t h a t   c a r r i e man y   r i sk s .   T h e   c o mp a r i so n   i s   d o n e   a t   t h e   se n t e n c e   l e v e l ,   so   w e   a l w a y s e n c o u n t e r   t h e   p r o b l e m o f   l o ss o f   t h e   se man t i c   a sp e c t   o f   t h e   p a r a g r a p h   o r   t e x t   a n a l y se d .   A c c o r d i n g   t o   t h e   st u d y   d o n e   b y   [ 3 1 ] ,   [ 3 2 ]   h e   f o u n d   t h a t   t h e   u se   o f   d o c 2 v e c   g i v e s t r a mp l i n g   r e su l t s.     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   A r ti f   I n tell   I SS N:  2252 - 8938       A   d ee p lea r n in g   b a s ed   tec h n iq u fo r   p la g ia r is d etec tio n :   a   co mp a r a tive  s tu d ( E l Mo s ta fa   Ha mb i )   87   T ab le  1 .   C o m p ar ativ tab le   ( C o n tin u e)   A p p r o a c h   V e c t o r   r e p r e s e n t a t i o n   L e v e l   t r e a t me n t     S i mi l a r i t y   me t h o d   D a t a se t / r e so u r c e s   C r i t i c a l   W o r d   S e n t e n c e   [ 2 5 ]   W o r d 2 v e c   -   w o r d   W M D   B B C S P O R - T   T h i s me t h o d   i u se d   j u s t   t o   d e t e c t   t h e   s i mi l a r i t y   b e t w e e n   smal l   se n t e n c e s.   [ 4 0 ]   G l o v e   -   w o r d   C N N - R N N   S e mEv a l   2 0 1 5   T h e se   me t h o d s a r e   b a se d   o n   t h e   v e c t o r   r e p r e se n t a t i o n   o f   w o r d s,  so   t h e y   a r e   u se d   o n l y   f o r   t h e   d e t e c t i o n   o f   s i mi l a r i t y   b e t w e e n   se n t e n c e b u t   n o t   t e x t s.   [ 4 5 ]   W o r d 2 v e c   -   w o r d   C N N - L S T M   S I C K   [ 4 1 ]   G l o v e   -   w o r d   L st m   C n n   D o t P r o d u c t   L 2 Eu c l i d   - 2 0 1 4   S e mEv a l   - M i c r o so f t   V i d e o   P a r a p h r a se   C o r p u s   - W i k i Q A   [ 4 2 ]   W o r d 2 v e c   -   w o r d   L S T M   S I C K   [ 4 3 ]   W o r d 2 v e c   -   w o r d   C N N   - S e mEv a l   - M i c r o so f t   R e se a r c h   p a r a p h r a se   A l w a y w e   e n c o u n t e r   t h e   p r o b l e m o f   l e v e l   r e p r e s e n t a t i o n   o f   t h e   a n a l y se d   d a t a ;   t h e   r e p r e se n t a t i o n   b y   w o r d   p o se t h e   p r o b l e m t h a t   w e   c a n   j u st   a n a l y se   t h e   smal l   se n t e n c e s.   C N N 's u se   o f   t r e a t i n g   t h e   si mi l a r i t y   b e t w e e n   l i st   o f   w o r d   p o se s se v e r a l   p r o b l e ms l i k e   t h e   l o ss o f   se man t i c s   l e v e l   o f   t h e   se n t e n c e   c o n st r u c t .   [ 4 4 ]   W o r d 2 v e c   -   w o r d   C N N   T R EC   :   A n sw e r i n g   a n d   M i c r o b l o g   R e t r i e v a l       I n   ad d itio n   to   th at  w co u ld   d etec th m o s p o w er f u m et h o d s   u s ed   f o r   t h r ep r esen tatio n   o f   te x t.   I h as  b ee n   f o u n d   t h at  t h u s e   o f   th d o c2 v ec   p r in cip le  r e m ain s   t h m o s r ele v an s o l u tio n   f r o m   t h [ 2 9 - 3 0 ]   s tu d y ,   an d   th e n   w w e n f u r th er   a n d   to o k   i n s p ir atio n   f r o m   i to   b u ild   o u r   lear n i n g   s y s te m   th at   d etec t s   p lag iar is m   b et w ee n   t h d o cu m en ts .       4.   RE SU L T A ND  D I SCU SS I O N   I n   t h is   p ar w w ill   an al y s e   t h r es u lt s   f o u n d   i n   th e   s t u d y   ca r r ied   o u ab o v e,   f ir s t   w w i ll  ill u s tr ate   th m o s t i m p o r tan t c o m p ar is o n   cr iter ia  d ef i n ed :     Vec t o re presenta t io n:   T h is   is   tr ea t m e n t   p er f o r m ed   o n   tex th at   w ill   tr an s f o r m   it  to   li s o f   v ec to r s   w h ic h   k ee p   th s e m a n tic  a n d   s y n tacti asp ec t o f f er ed   b y   th u s o f   d ee p   lear n in g   al g o r ith m s .     L ev el  t re a t m ent :   th i s   cr iter io n   d ef i n es  t h lev el  o f   th tr ea t m en o f   tex t,  m o r ex ac tl y   i f   th te x is   tr ea ted   b y   w o r d   o r   b y   s e n te n ce .     Si m ila rit y   m et ho d:   T h is   p ar d ea ls   w it h   t h ap p r o ac h es  u s ed   f o r   ca lcu lati n g   t h s i m i lar it y   b et w ee n   t h v ec to r s   t h at  r ep r esen t h te x t s ,   w h ic h   w i ll  g iv u s   g lo b al   v is ib il it y   to   d etec th s tr en g t h s   a n d   w ea k n es s es   o f   ea ch   m eth o d .   I n   ad d itio n ,   w e   ar g o i n g   to   tal k   ab o u t h e   cr itical  p o in t   f o r   ea ch   ap p r o ac h   il lu s tr ated   i n   t h e   p ar a g r ap h   ab o v e.   Star ti n g   f r o m   t h e   m e th o d s   u s ed   f o r   t h e   v ec to r   r ep r esen tatio n   o f   a   tex t,  ac co r d in g   to   t h e   an al y s is   it  t u r n s   o u th at  m o s o f   th ap p r o ac h es  u s eit h er   th w o r d 2 v ec   o r   th d o c 2 v ec   f o r   its   v ec to r   tr an s f o r m atio n ,   s o   w d is tin g u is h   t h at  th m i k o lo v   r ep r esen tatio n s   ar th b est  m et h o d s   u s ed   to   k ee p   th e   s e m a n tic   asp ec o f   g i v en   tex t.  I n   R ev e n g e,   E ac h   A p p r o ac h   tr ea ts   t h te x w it h   it s   o w n   wa y ,   t h er ar s o m e   w h o   tr an s f o r m   it  i n to   li s o f   w o r d s   a n d   s o m eo n i n to   lis o f   s e n te n ce s ,   t h ese  r ep r ese n t at io n s   y ield   r es u lt s   th at  d if f er   f r o m   o n ap p r o ac h   to   an o th er   b u th tr a n s f o r m at io n   o f   tex to   lis o f   s e n ten ce s   in   o u r   o p in io n   r e m ain s   th m o s r ele v an s in ce   th m ea n i n g   o f   th te x tr e ated   r em ai n s   i n   co n s id er atio n .   W ith   r eg ar d   to   th m et h o d s   u s ed   f o r   th s i m ilar it y   ca lc u latio n ,   th p r ec ed in g   p ar ag r ap h s   m e n tio n   th d i f f er en w a y s   u s ed   to   d etec w h et h er   th er is   s i m i lar it y   o r   n o b et w ee n   th a n al y s ed   te x ts .   T h er ar also   m a n y   ap p r o ac h es  t h at   w o r k   w it h   C N an d   R NN  o n   its   p lag iar is m   d etec tio n   ar ch it ec t u r e,   b u m o s o f   t h e m   u s t h w o r d   lev el  f o r   its   v ec to r   r ep r esen tatio n ,   s o   t h e y   ar u s ed   o n l y   f o r   th d etec tio n   o f   s i m ilar it y   b et w ee n   s e n te n c es b u t n o t te x ts .   I n   co n clu s io n ,   w f o u n d   th at  al m o s o f   th e s ap p r o ac h es  u s th co s i n to   ca lcu la te  th e   s i m i lar it b et w ee n   d o cu m e n ts ,   s o   it  w as   f o u n d   t h at  th e s m et h o d s   p er f o r m   its   s i m ilar it y   a n al y s es  i n   w o r d - by - w o r d   o r   s en te n ce - by - s e n te n ce ,   w h ic h   w il p o s a f ter   r eliab ili t y   p r o b lem   o f   th e s r es u lt s ,   s in ce   w ca n   f i n d   t w o   d o cu m en ts   t h at  s h ar t h s a m w o r d   o r   th s a m s e n ten ce s   b u th e y   ar n o s e m a n tical l y   s i m ilar ,   in   ad d itio n   to   th at  w ca n   lo s e   th e   s e m a n t ic  asp ec w h e n   t h d o cu m e n ts   ar tr ea tin g   v ia  a   li s o f   s e n te n ce s   o r   w o r d s .   So ,   y o u   h a v to   th i n k   o f   m et h o d   th at  m a n ag e s   th is   p r o b lem   b y   p r o p o s in g   an   ap p r o ac h   th at  will  r ep r esen tex t   b y   l is o f   s e n ten ce s   t h at  w ill  ev en t u all y   b tr an s f o r m ed   in t o   lis o f   v ec to r s ,   an d   in   ad d it io n   to   th at  w m u s t   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938     I n t J   A r ti f   I n tell ,   Vo l.  9 ,   No .   1 Ma r ch   20 20 :   81     90   88   u s a   tr ea t m en t   th a k ee p s   t h s e m an t ic  asp ec o f   t h is   lis t   o f   s e n te n ce s ,   s o   it  w ell  b a   m a n ip u la tio n   th at   p r o ce s s e s   lis t o f   s e n te n ce s   to   d etec t a   s i m i lar it y   u s in g   a n   al g o r ith m   li k t h R N th a w il l k ee p   th s e m a n tic   asp ec t o f   tex t.       5.   CO NCLU SI O N   I n   th i s   p ap er ,   w h av m e n tio n ed   m a n y   d if f er en m et h o d s   u s ed   i n   d etec tio n   o f   p lag iar i s m   o f   id ea s   th at  s tan d   f o r   th p r i n cip al  o f   Dee p   L ea r n i n g ,   an d   b y   th is   b r illi an t   s t u d y   w e   co u ld   co n s tr u ct  o u r   cr itical  b ase   o f   t h p r ev io u s   w ea k n ess e s   wh ich   w h a v s ee n   d u r in g   o u r   s tu d y .   T h is   h elp ed   u s   to   g et  g en er al  id ea   ab o u t   th d if f er e n m eth o d s   o f   d ee p   lear n in g   u s ed   f o r   p lag iar i s m   d etec tio n   o r   esp ec iall y   s e m an tic  p lag iar i s m   d etec tio n .   I n   ad d itio n   to   t h i s ,   t h is   s t u d y   h as  g i v e n   u s   t h p at h s   to   f o llo w   f o r   th co n s tr u cti o n   o f   o u r   ap p r o ac h   b y   b en e f iti n g   f r o m   t h s tr e n g t h s   o f   ea c h   m eth o d   a n d   b y p ass in g   t h w ea k   p o in ts   o f   ea c h   m eth o d .   C o n ce r n in g   th f u t u r w o r k   co n s is t s   o f   co n s tr u ct  an d   p u t tin g   i n to   p r ac tice  o u r   ap p r o ac h   an d   co m p ar in g   i w it h   th o t h er   m et h o d s   u s ed   at  t h lev el  o f   th p h ase  r elate d   w o r k .       RE F E R E NC E S   [1 ]   T u o m o   Ka k k o n e n ,   M a x i m   M o z g o v o y .   He r m e ti c   a n d   W e b   P lag iaris m   De te c ti o n   S y ste m s   f o S tu d e n Essa y sa n   Ev a lu a ti o n   Of   T h e   S tate - Of - T h e - A rt.   J o u rn a o f   Ed u c a ti o n a Co mp u t in g   Res e a rc h ,   v 4 2   n 2   p 1 3 5 - 1 5 9   2 0 1 0 .   Un iv e rsit y   o f   Jo e n su u ,   F in lan d ,   U n iv e rsity   o f   A izu ,   Ja p a n   [ e n   li g n e ]   2 0 1 0 .   [2 ]   A h m e d   Ja b A h m e d   M u f tah .   D o c u m e n P lag iarism   De tec ti o n   A l g o rit h m   Us in g   S e m a n ti c   Ne t w o rk s.  p ro jec t   re p o rt  su b m it ted   in   p a rt ial  f u lf il lm e n o f   th e   re q u irem e n ts  f o th e   a w a rd   o f   th e   d e g re e   o f   M a s ter  o f   S c ien c e   (Co m p u ter  S c ien c e ).   F a c u lt y   o Co m p u ter  S c ien c e   a n d   In f o rm a ti o n   S y ste m Un iv e rsit y   Tec h n o lo g y   M a la y sia   (2 0 0 9 ).   [3 ]   Erf a n e h   G h a ra v i,   Ka y v a n   Bij a ri  e Kia ra sh   Zah irn iaA   De e p   L e a r n in g   A p p ro a c h   to   P e rsia n   P lag iarism   De tec ti o n .   J o u rn a o M a c h i n e   L e a rn in g   Res e a rc h   (2 0 1 1 ).   [4 ]   S .   M .   A lza h ra n i,   N.  S a li m ,   a n d   A .   A b ra h a m ,   Un d e rsta n d in g   p la g iaris m   li n g u isti c   p a tt e rn s,  tex tu a fe a tu re s,  a n d   d e tec ti o n   m e th o d s,”   T ra n s.  S y s.M a n   Cy b e P a rt  C,   v o l .   4 2 ,   n o .   2 ,   p p .   1 3 3 1 4 9 ,   M a r.   2 0 1 2 .   [ On l in e ].   A v a il a b le:   h tt p : // d x . d o i. o rg /1 0 . 1 1 0 9 /T S M C C. 2 0 1 1 . 2 1 3 4 8 4 7 .   [5 ]   M .   Ch o n g   a n d   L .   S p e c ia,  Lex i c a g e n e ra li sa ti o n   f o w o rd - lev e l   m a tch in g   in   p lag iaris m   d e tec ti o n ,   in   RA N L P ,   2 0 1 1 ,   p p .   7 0 4 7 0 9 .   [6 ]   S .   Brin ,   J.  Da v is,  a n d   H.  G a rc ia - M o li n a ,   Co p y   d e tec ti o n   m e c h a n ism f o d ig it a d o c u m e n ts,”  in   S IG M OD   Co n f e re n c e ,   1 9 9 5 ,   p p .   3 9 8 4 0 9 .   [7 ]   D.  R.   W h it e   a n d   M .   Jo y ,   S e n ten c e - b a se d   n a tu ra la n g u a g e   p lag iaris m   d e tec ti o n ,   ACM   J o u r n a o Ed u c a t io n a l   Res o u rc e s in   Co m p u t in g ,   v o l.   4 ,   n o .   4 ,   p p .   1 2 0 ,   2 0 0 4 .   [8 ]   S .   Nie z g o d a   a n d   T .   P .   W a y ,   S n it c h a   so f t w a r e   to o f o d e tec ti n g   c u a n d   p a ste   p lag iaris m ,   in   S I GCSE ,   2 0 0 6 ,   p p .   51 5 5 .   [9 ]   A .   Ba rr ´   o n - Ce d e n o   a n d   P .   Ro ss o ,   On   a u to m a ti c   p lag iarism   d e t e c ti o n   b a se d   o n   n - g ra m c o m p a riso n ,   i n   ECIR ,   2 0 0 9 ,   p p .   6 9 6 7 0 0 .   [1 0 ]   M .   S .   P e ra   a n d   Y. - K.  Ng ,   n a ıv e   b a y e c la ss ifi e f o w e b   d o c u m e n su m m a ries   c re a ted   b y   u sin g   w o rd   si m il a rit y   a n d   sig n ifi c a n f a c to rs,”  In ter n a ti o n a J o u rn a o n   Arti c ia l   In tell ig e n c e   T o o ls,  v o l.   1 9 ,   n o .   4 ,   p p .   4 6 5 4 8 6 ,   2 0 1 0 .   [1 1 ]   E.   S tam a tato s,  P lag iarism   d e tec ti o n   u sin g   sto p w o rd   n - g ra m s,”   J A S IS T ,   v o l.   6 2 ,   n o .   1 2 ,   p p .   2 5 1 2 2 5 2 7 ,   2 0 1 1 .   [1 2 ]   J.  G r m a n   a n d   R.   R a v a s,  I m p ro v e d   im p le m e n tatio n   f o n d in g   te x si m il a rit ies   in   larg e   se ts   o d a ta - n o teb o o k   f o p a n   a c lef   2 0 1 1 ,   i n   CL EF   (No te b o o k   P a p e rs/L a b s/W o rk sh o p ),   2 0 1 1 .   [1 3 ]   Uz u n e r,   O.,   a n d   Ka tz,  B. ,   a n d   Na h n se n ,   T . Us in g   S y n ta c ti c   I n fo r ma ti o n   t o   I d e n ti fy  Pl a g ia rism .   In :   2 n d   W o rk sh o p   o n   B u il d in g   E d u c a ti o n a A p p li c a t io n u sin g   NL P   ( 2 0 0 5 ).   [1 4 ]   A h m e d   Ha m z a   O s m a n ,   Na o m ie  S a li m ,   a n d   A lb a ra a   A b u o b ie d a .   S u rv e y   o f   T e x P lag iarism   De tec ti o n .   Co m p u ter   En g in e e rin g   a n d   A p p li c a ti o n Vo l.   1 ,   No .   1 ,   Ju n e   2 0 1 2 .   Un iv e rsiti   T e k n o lo g M a la y sia ,   F a c u lt y   o f   Co m p u ter  S c ien c e   a n d   In f o rm a ti o n   S y ste m s ,   S k u d a i,   Jo h o r,   M a lay sia ,   In tern a ti o n a Un iv e rsity   o Af rica ,   F a c u l ty   o f   Co m p u ter  S tu d ies ,   Kh a rto u m ,   S u d a n .   [1 5 ]   V a n Ka n ji ra n g a t,   De e p a   G u p ta.  S tu d y   o n   Ex tri n sic   Tex P lag ia rism   De te c ti o n   T e c h n iq u e a n d   T o o ls.  Jo u rn a o f   En g in e e rin g   S c ien c e   a n d   T e c h n o l o g y   Re v ie w   9   (5 (2 0 1 6 9     2 3 .   De p a rtme n o f   Co m p u ter S c ien c e   &   En g in e e rin g ,   Am rit a   S c h o o o f   En g in e e rin g ,   A m rit a   Un iv e rsit y ,   Am rit a   V ish w a   V id y a p e e th a m ,   B a n g a lo re ,   In d ia.  De p a rtme n o M a th e m a ti c s,  Am rit a   S c h o o o f   E n g in e e rin g ,   Am rit a   Un iv e rsit y ,   Am rit a   V ish w a   V id y a p e e th a m ,   Ba n g a lo re ,   In d ia.   [1 6 ]   Ch risti n a   Kra u s.  P lag iarism   De tec ti o n - S tate - of - th e - a rt  sy ste m (2 0 1 6 a n d   e v a lu a ti o n   m e th o d s .   a rX iv :1 6 0 3 . 0 3 0 1 4 v 1   [ c s.IR ]   8   M a 2 0 1 6 .   T e c h n isc h e   Un iv e rsität  Be rli n   Da tab a se   S y ste m a n d   I n f o rm a ti o n   M a n a g e m e n G ro u p .   [1 7 ]   Co ll o b e rt,   R.   a n d   W e sto n ,   J.  u n if ied   a rc h i tec tu re   fo n a tu r a la n g u a g e   p r o c e ss in g De e p   n e u ra l   n e two rk wit h   mu lt it a sk   le a rn i n g .   In   P ro c e e d in g s o f   th e   2 5 th   in tern a ti o n a l   c o n f e re n c e   o n   M a c h in e   lea rn in g   A CM ,   1 6 0 - 1 6 7   (2 0 0 8 ).   [1 8 ]   Ch o n g ,   M . Y . M . , .   A   stu d y   o n   p lag iaris m   d e tec ti o n   a n d   p lag iarism   d irec ti o n   id e n t if ica ti o n   u sin g   n a tu ra lan g u a g e   p ro c e ss in g   tec h n i q u e s (2 0 1 3 ).   [1 9 ]   M ik o lo v ,   T . ,   Ch e n ,   K.,   Co rra d o ,   G . ,   a n d   De a n ,   J.,   2 0 1 3 .   Ef f icie n e stim a ti o n   o f   w o rd   re p re se n tatio n in   v e c to sp a c e .   a rX iv   p re p ri n a r X iv :1 3 0 1 . 3 7 8 1 .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   A r ti f   I n tell   I SS N:  2252 - 8938       A   d ee p lea r n in g   b a s ed   tec h n iq u fo r   p la g ia r is d etec tio n :   a   co mp a r a tive  s tu d ( E l Mo s ta fa   Ha mb i )   89   [2 0 ]   Qu o c   L e   a n d   T o m a M ik o lo v .   Distrib u ted   Re p re se n tatio n o f   S e n ten c e a n d   Do c u m e n ts.  G o o g le  In c ,   1 6 0 0   Am p h it h e a tre P a rk w a y ,   M o u n tain   V iew ,   C A   9 4 0 4 3 .   [2 1 ]   S h a o ji e   Ba i,   J.  Zi c o   Ko lt e r,   V la d len   Ko lt u n .   A n   Em p iri c a Ev a lu a ti o n   o f   G e n e ric  Co n v o lu ti o n a l   a n d   Re c u rre n t   Ne tw o rk s f o S e q u e n c e   M o d e li n g .   a rX iv :1 8 0 3 . 0 1 2 7 1 v 2   [ c s.L G ]   1 9   A p 2 0 1 8 .   [2 2 ]   Ch risti a n   S .   P e ro n e .   P r iv a c y - p re s e rv in g   se n ten c e   se m a n ti c   sim il a ri t y   u sin g   In f e rS e n e m b e d d in g a n d   se c u re   tw o - p a rty   c o m p u tatio n .   [2 3 ]   M a m d o u h   F a ro u k .   M e a su ri n g   S e n ten c e S im il a rit y A   S u rv e y .   In d ian   Jo u rn a o f   S c ien c e   a n d   T e c h n o l o g y ,   V o l   1 2 ( 2 5 ),   DO I:  1 0 . 1 7 4 8 5 /i jst /2 0 1 9 /v 1 2 i2 5 /1 4 3 9 7 7 ,   J u ly   2 0 1 9 .   De p a rtme n o f   T h e r m o tec h n ik   Co m p u ter  S c ien c e ,   A s siu Un iv e rsity ,   M a rk a z   El - F a th ,   A ss iu G o v e rn o ra te 7 1 5 1 5 ,   Eg y p t.   [2 4 ]   Ke n su k e   Ba b a ,   T e tsu y a   Na k a to h   a n d   T o sh iro   M in a m i.   Pl a g ia ris d e tec ti o n   u si n g   d o c u me n simi la rity  b a se d   o n   d istrib u ted   re p re se n ta ti o n .   8 t h   In t e rn a ti o n a C o n f e re n c e   o n   A d v a n c e in   In f o rm a ti o n   T e c h n o l o g y ,   I AIT 2 0 1 6 ,   1 9 - 22  De c e m b e 2 0 1 6 ,   M a c a u ,   Ch in a .   F u ji tsu   L a b o ra to ries ,   Ka w a sa k i,   Ja p a n   Ky u sh u   Un iv e rsity ,   F u k u o k a ,   Ja p a n .   [2 5 ]   M a tt   J.  Ku sn e r,   Yu   S u n ,   Nic h o l a I.   Ko lk in   a n d   Kili a n   Q.  W e in b e rg e r.  Fro W o rd   Emb e d d i n g s   T o   Do c u me n t   Dista n c e s .   P ro c e e d in g o f   th e   3 2 n d   I n tern a ti o n a Co n f e re n c e   o n   M a c h in e   L e a rn in g ,   L il le,  F ra n c e ,   2 0 1 5 .   JML R:   W & CP   v o lu m e   3 7 .   W a sh in g to n   Un iv e rsit y   in   S t.   L o u is,  1   Bro o k in g s Dr.,   S t.   L o u is,   M 6 3 1 3 0 .   [2 6 ]   Erf a n e h   G h a ra v i,   Ka y v a n   Bij a ri  a n d   Kia ra sh   Zah ir n ia.  De e p   L e a r n in g   A p p r o a c h   to   Per sia n   P la g ia rism   De tec ti o n .   DO I:  1 0 . 1 1 0 9 /ICT CS . 2 0 1 7 . 4 2   Co n f e re n c e Co n f e r e n c e :   T h e   In tern a ti o n a Co n f e re n c e   o n   n e T re n d in   Co m p u ti n g   S c ien c e (ICT CS 2 0 1 7 ).   U n iv e rsity   o f   T e h ra n   F a c u lt y   o f   n e w   S c ien c e   a n d   T e c h n o l o g y   Da ta  &   S ig n a l   p ro c e ss in g   L a b   2 0 1 7 .   [2 7 ]   Dim a   S u leim a n ,   A ra fa Aw a jan   a n d   A ra f a Aw a jan .   De e p   L e a rn in g   Ba se d   Tec h n iq u e   f o P lag iaris m   De te c ti o n   in   A ra b ic  Tex ts.  2 0 1 7   In tern a ti o n a Co n f e re n c e   o n   Ne w   T re n d in   Co m p u ti n g   S c ien c e s.  Co m p u ter  S c ien c e   De p a rtme n P rin c e ss   S u m a y a   Un iv e rsit y   f o T e c h n o l o g y   2 0 1 7 .   [2 8 ]   Na v e e d   Afz a l,   Ya n sh a n   W a n g   a n d   Ho n g f a n g   L iu .   M a y o N L P   a S e m E v a l - 2 0 1 6   T a sk   1 S e m a n ti c   T e x tu a S im il a rit y   b a se d   o n   L e x ica S e m a n ti c   Ne a n d   De e p   L e a rn in g   S e m a n ti c   M o d e l.   P r o c e e d in g o f   S e m Ev a l - 2 0 1 6 ,   p a g e 6 7 4 6 7 9 ,   S a n   Die g o ,   Ca li f o rn ia,  J u n e   1 6 - 1 7 ,   2 0 1 6 .   2 0 1 6   A ss o c iatio n   f o Co m p u tati o n a l   L in g u isti c s.   De p a rtm e n o f   He a lt h   S c ien c e s Re se a rc h   M a y o   Cli n ic,  R o c h e ste r,   M N.   [2 9 ]   T e d o   V rb a n e c   a n d   A n a   M e stro v ic.  T h e   S tru g g le   w it h   A c a d e m ic  P lag iarism :   A p p ro a c h e b a se d   o n   S e m a n ti c   S im il a rit y .   M IP R 2 0 1 7 ,   M a y   2 2 -   2 6 ,   2 0 1 7 ,   Op a ti ja,  Cr o a ti a .   F a c u lt y   o f   T e a c h e Ed u c a ti o n ,   Un iv e rsity   o f   Za g re b ,   Cro a ti a   De p a rtm e n o f   [ n f o rm a ti c s,  Un iv e rsity   o f   Rij e k a ,   Cro a ti a .   [3 0 ]   Qu o c   L e   a n d   T o m a M ik o lo v .   Distrib u ted   Re p re se n tatio n o f   S e n ten c e a n d   Do c u m e n ts.  G o o g le  In c ,   1 6 0 0   Am p h it h e a tre P a rk w a y ,   M o u n tain   V iew ,   CA   9 4 0 4 3 .   [3 1 ]   A d rian   S a n b o rn   a n d   Ja c e k   S k r y z a li n .   De e p   L e a rn in g   f o S e m a n ti c   S im il a rit y .   M IP RO  2 0 1 7 ,   M a y   2 2 -   2 6 ,   2 0 1 7 ,   Op a ti ja,  Cro a ti a .   De p a rtm e n o f   Co m p u ter S c ien c e   S tan f o rd   U n iv e rsity .   [3 2 ]   Hu a   He ,   Ke v in   G i m p e l, a n d   Jim m y   L in .   M u lt i - P e rs p e c ti v e   S e n ten c e   S im il a rit y   M o d e li n g   w it h   Co n v o lu ti o n a l   Ne u ra Ne t w o rk s.  DO I:   1 0 . 1 8 6 5 3 /v 1 /D1 5 - 1 1 8 1   Co n f e re n c e Co n f e r e n c e P ro c e e d in g o f   th e   2 0 1 5   Co n f e re n c e   o n   Em p iri c a M e th o d i n   Na tu ra L a n g u a g e   P ro c e ss in g .   De p a rtm e n o f   Co m p u ter  S c ien c e ,   Un iv e rsity   o f   M a r y lan d ,   Co ll e g e   P a rk ,   T o y o ta  T e c h n o l o g ica In stit u te  a Ch ica g o   a n d   Da v id   R.   Ch e rit o n   S c h o o l   o f   Co m p u ter  S c ie n c e ,   Un iv e rsit y   o f   Wate rlo o .   [3 3 ]   T o m   Ke n ter  a n d   M a a rten   d e   Rij k e .   S h o rt  T e x S imil a rity  wit h   W o rd   Emb e d d i n g s .   CIKM  ' 1 5   P ro c e e d i n g o f   th e   2 4 t h   A CM   In tern a ti o n a o n   C o n f e re n c e   o n   In f o rm a ti o n   a n d   K n o w led g e   M a n a g e m e n P a g e 1 4 1 1 - 1 4 2 0 .   Un iv e rsity   o f   Am ste rd a m ,   Am st e rd a m ,   T h e   Ne th e rlan d s.   [3 4 ]   El   M o a tez   Bil lah   Na g o u d a n d   Did ier  S c h w a b .   S e ma n ti c   S imil a rity  o Ara b ic  S e n ten c e wit h   W o rd   Emb e d d in g s P r o c e e d in g o f   T h e   T h ird   A ra b i c   Na tu ra L a n g u a g e   P ro c e ss in g   W o rk sh o p   (W A N L P ),   p a g e 1 8 2 4 ,   V a len c ia ,   S p a in ,   A p ril   3 ,   2 0 1 7 . ©,   2 0 1 7   A ss o c iatio n   f o Co m p u tatio n a L in g u isti c .   L IM - L a b o ra to ire  d ’In f o rm a ti q u e   e d e   M a th é m a ti q u e s,  Un iv e rsité Am a T e li d ji   d e   L a g h o u a t,   A lg é rie.  L I G - G E TAL P   Un iv .   G re n o b le A lp e F ra n c e .   [3 5 ]   Ce d ric De   Bo o m ,   S tev e n   V a n   Ca n n e y t,   T h o m a s   De m e e st e a n d   Ba rt  Dh o e d t.   Re p re se n tatio n   lea rn in g   f o v e r y   sh o rt   tex ts  u sin g   we ig h ted   w o rd   e m b e d d i n g   a g g re g a ti o n .   J o u rn a P a tt e rn   Rec o g n it io n   L e tt e rs   a rc h iv e   Vo lu m e   8 0   Iss u e   C,   S e p tem b e 2 0 1 6   P a g e 1 5 0 - 1 5 6 .   De p a rtm e n o f   In f o rm a ti o n   T e c h n o lo g y ,   T e c h n o lo g iep a rk   1 5 ,   9 0 5 2   Zw ij n a a rd e ,   Be lg iu m .   [3 6 ]   Ce d ric  De   Bo o m ,   S tev e n   V a n   Ca n n e y t,   S tev e n   Bo h e z ,   T h o m a De m e e ste a n d   Ba rt  Dh o e d t.   L e a rn in g   S e m a n ti c   S im il a rit y   f o V e ry   S h o rt  T e x ts.  2 0 1 5   IEE In ter n a ti o n a Co n fer e n c e   o n   Da ta   M in i n g   W o rk sh o p   ( ICDM W ).   G h e n t   Un iv e rsit y     iM in d s G a sto n   Cro m m e n laa n   8 - 2 0 1 ,   9 0 5 0   G h e n t,   Be lg iu m .   [3 7 ]   X in   Ye ,   Hu S h e n ,   X iao   M a ,   Ra z v a n   Bu n e sc u ,   a n d   Ch a n g   L iu .   F ro m   W o rd   E m b e d d in g T o   Do c u m e n S im i lariti e s   f o I m p ro v e d   In f o r m a ti o n   Re tri e v a in   S o f tw a re   En g in e e rin g .   CS ’1 6 ,   M a y   1 4 - 2 2 ,   2 0 1 6 ,   A u stin ,   T X ,   USA .   S c h o o l   o f   El e c tri c a En g in e e rin g   a n d   C o m p u ter S c ien c e ,   Oh io   U n iv e rsity   A th e n s,  Oh io   4 5 7 0 1 ,   USA .   [3 8 ]   Ya n g q iu   S o n g   a n d   Da n   Ro th .   Un su p e rv ise d   S p a rs e   V e c to De n sifi c a ti o n   f o S h o rt  T e x S imil a rity .   DO I :   1 0 . 3 1 1 5 /v 1 /N1 5 - 1 1 3 8   Co n f e re n c e Co n f e re n c e P ro c e e d in g o f   th e   2 0 1 5   C o n f e re n c e   o f   th e   N o rth   Am e ric a n   Ch a p ter  o f   th e   A ss o c iatio n   f o Co m p u tatio n a L in g u isti c s:  H u m a n   Lan g u a g e   Tec h n o lo g ies .   De p a rtme n o Co m p u ter S c ien c e   Un iv e rsity   o f   Ill in o is at  Urb a n a - C h a m p a ig n   Urb a n a ,   IL   6 1 8 0 1 ,   USA .   [3 9 ]   A d n e n   M a h m o u d   a n d   M o u n ir  Zr ig u i.   S e ma n ti c   S imil a rity  An a lys i fo Pa ra p h ra se   Id e n ti fi c a ti o n   i n   Ara b ic  T e x ts Co n f e re n c e Co n f e re n c e :   T h e   3 1 st  P a c if ic  A sia   Co n f e re n c e   o n   L a n g u a g e ,   In f o r m a ti o n   a n d   Co m p u tatio n   P A CL IC  3 1   ( 2 0 1 7 ),   A Un iv e rsit y   o f   th e   P h il ip p i n e Ce b u ,   Ce b u ,   P h i li p p in e s.  LAT ICE  Lab o ra to ry   Re se a rc h   De p a rtme n o f   Co m p u ter S c ien c e   Un iv e rsity   o f   M o n a stir,   T u n isia.   [4 0 ]   Ba sa n Ag a r w a la,  He ri  Ra m a m p iaro a ,   He lg e   L a n g se th a ,   M a ss i m il ian o   Ru o c c o .   A   De e p   Ne two rk   M o d e f o r   P a ra p h ra se   De tec ti o n   in   S h o rt  T e x M e ss a g e s.   a rX iv :1 7 1 2 . 0 2 8 2 0 v 1   [ c s.IR]   7   De c   2 0 1 7 .   De p t.   o f   Co m p u ter  Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8938     I n t J   A r ti f   I n tell ,   Vo l.  9 ,   No .   1 Ma r ch   20 20 :   81     90   90   S c ien c e ,   No rw e g ian   Un iv e rsit y   o f   S c ien c e   a n d   T e c h n o lo g y ,   No rwa y   S wa m Ke sh v a n a n d   In stit u te  o f   T e c h n o l o g y ,   In d ia T e len o Re se a rc h ,   T ro n d h e i m ,   No r w a y .   [4 1 ]   Hu a   He   a n d   Jim m y   L in .   Pa irwis e   W o rd   In ter a c ti o n   M o d e li n g   wi t h   De e p   Ne u ra Ne two rk fo S e m a n ti c   S imil a rity   M e a su re me n t .   P ro c e e d i n g o f   NA ACL - H LT   2 0 1 6 ,   p a g e 9 3 7 9 4 8 ,   S a n   Die g o ,   Ca li f o rn ia,  Ju n e   1 2 - 1 7 ,   2 0 1 6 . c ©2 0 1 6   A ss o c ia ti o n   f o Co m p u tatio n a L in g u isti c s.  De p a rtme n o f   Co m p u ter  S c ien c e ,   Un iv e rsity   o f   M a ry l a n d ,   Co ll e g e   P a rk   Da v id   R.   Ch e rit o n   S c h o o o f   Co m p u ter S c i e n c e ,   Un iv e rsit y   o f   Wate rlo o .   [4 2 ]   Jo n a M u e ll e a n d   A d it y a   T h y a g a ra jan .   S ia me se   Rec u rr e n A rc h it e c tu re fo L e a r n in g   S e n te n c e   S imil a rity.   P r o c e e d in g o f   th e   T h irt ieth   AA A Co n fe re n c e   o n   A rti f icia In tell ig e n c e   ( AA A I - 1 6 ).   Co m p u ter  S c ien c e &   A rti f icia In telli g e n c e   L a b o ra to ry   M a ss a c h u se tt In stit u te  o f   T e c h n o lo g y .   De p a rt m e n o f   Co m p u t e S c ien c e a n d   En g in e e rin g M .   S .   Ra m a iah   In stit u te o f   T e c h n o lo g y .   [4 3 ]   Hu a   He ,   Ke v in   G i m p e l,   a n d   Jim m y   L in .   M u lt i - Per sp e c ti v e   S e n ten c e   S imil a rity  M o d e li n g wit h   Co n v o lu ti o n a Ne u ra l   Ne two rk s.   P r o c e e d in g o f   th e   2 0 1 5   Co n f e re n c e   o n   Em p iri c a M e th o d in   Na tu ra L a n g u a g e   P ro c e ss in g ,   p a g e s   1 5 7 6 1 5 8 6 ,   L isb o n ,   P o rt u g a l,   1 7 - 2 1   S e p tem b e 2 0 1 5 . c ©2 0 1 5   A ss o c iatio n   f o Co m p u tatio n a L in g u isti c s.   De p a rtme n o f   Co m p u ter  S c ien c e ,   Un iv e rsit y   o f   M a r y lan d ,   Co ll e g e   P a rk 2 T o y o ta  Tec h n o lo g i c a In stit u te  a Ch ica g o .   Da v id   R.   Ch e rit o n   S c h o o o f   Co m p u ter S c ien c e ,   U n iv e rsity   o f   W a t e rlo o .   [4 4 ]   A li a k se S e v e r y n ,   A les s a n d ro   M o sc h it ti .   L e a rn in g   to   Ra n k   S h o rt   T e x P a irs  w it h   Co n v o lu t i o n a De e p Ne u ra l   Ne tw o rk s.  G o o g le In c .   Qa tar Co m p u ti n g   Re se a rc h   In stit u te.   [4 5 ]     El v y L in h a re P o n tes ,   S tép h a n e   Hu e t,   A n d a   Ca rn e iro   L in h a re s,  Ju a n - M a n u e T o r re s - M o re n o .   P re d ictin g   t h e   S e m a n ti c   Tex tu a S i m il a rit y   w it h   S ia m e se   CNN   a n d   L S T M .   L I A ,   Un iv e rsité  d A v ig n o n   e d e P a y d e   V a u c lu se ,   Av ig n o n ,   8 4 0 0 0   F ra n c e   Un iv e rsid a d e   F e d e ra d o   Ce a ,   S o b ra l,   Ce a   Bra z il   Éco le  P o ly tec h n iq u e   d e   M o n tréa l,   M o n tréa l,   Ca n a d a .       B I O G RAP H I E S   O F   AUTH O RS        El   M o sta f a   HA M BI  is a P h . D .   stu d e n o f   Co m p u ter S c ien c e .   His res e a rc h   a re a s in c lu d e   d a ta             F a o u z ia  Be n a b b o u   is  a   p r o f e ss o o f   Co m p u ter  S c ien c e   a n d   m e m b e o f   Co m p u te  S c ien c e   a n d   In f o rm a ti o n   P ro c e ss in g   lab o ra t o r y .   S h e   is  H e a d   o f   th e   tea m   " Clo u d   Co m p u ti n g ,   Ne tw o rk   a n d   S y st e m En g in e e rin g   (CCNSE )" .   S h e   re c e iv e d   h is  P h . D.   in   Co m p u ter  S c ien c e   f ro m   th e   F a c u lt y   o f   S c ie n c e s,  Un iv e rsit y   M o h a m e d   V ,   M o r o c c o ,   1 9 9 7 .   His  re se a rc h   a r e a in c lu d e   c lo u d   Co m p u ti n g ,   d a ta m in in g ,   m a c h in e   lea rn in g ,   a n d   Na tu ra Lan g u a g e   P ro c e ss in g .   S h e   h a s p u b li sh e d   se v e r a sc ien ti f ic article s a n d   b o o k   c h a p ters   in   t h e se   a re a s.         Evaluation Warning : The document was created with Spire.PDF for Python.