I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m pu t er   E ng ineering   ( I J E CE )   Vo l.   15 ,   No .   2 A p r il   20 25 ,   p p .   2 3 5 6 ~ 2 3 6 3   I SS N:  2088 - 8 7 0 8 ,   DOI : 1 0 . 1 1 5 9 1 /ijece. v 15 i 2 . pp 2 3 5 6 - 2 3 6 3           2356       J o ur na l ho m ep a g e h ttp : //ij ec e. ia esco r e. co m   An inno v a tive Ar a bic light st emme r develo ped usi ng  a hy brid  a ppro a ch       Driss   Na m ly 1 ,   K a rim   B o uzo ub a a 2 ,3   1 D e p a r t me n t   o f   C o m p u t e r   S c i e n c e ,   M o h a mm e d   V   U n i v e r si t y   i n   R a b a t ,   R a b a t ,   M o r o c c o   2 M o h a mm a d i a   S c h o o l   o f   E n g i n e e r s,  M o h a mm e d   V   U n i v e r s i t y   i n   R a b a t ,   R a b a t ,   M o r o c c o   3 D e p a r t me n t   o f   C o m p u t e r   S c i e n c e ,   U n i v e r s i t y   o f   R o e h a mp t o n ,   L o n d o n ,   U n i t e d   K i n g d o m       Art icle  I nfo     AB S T RAC T     A r ticle  his to r y:   R ec eiv ed   J u n   2 7 ,   2 0 2 4   R ev is ed   No v   2 5 ,   2 0 2 4   Acc ep ted   Dec   2 ,   2 0 2 4         Ou stu d y   in tr o d u c e a n   in n o v a ti v e   li g h ste m m in g   to o tail o re d   f o Ara b ic  m o r p h o l o g y   c h a l le n g e s .   I n   c o n f o r m a n c e   wi t h   t h e   tem p la t ic  a n d   c o n c a ten a ti v e   stru c tu re s,  o u ste m m e u ti li z e a   c o m b in a ti o n   o c li ti c   stri p p i n g ,   lex ico n - b a se d ,   a n d   sta ti stica d isa m b i g u a ti o n   tec h n iq u e to   e n su re   a c c u ra te   ste m m in g .   T o   a c c o m p li s h   t h is,   we   re ly   o n   o u c li t ic  ru les   lex ico n   t o   d e tec a ll   p o ten t ial  c o m b in a ti o n o c li t ics   fo e a c h   in p u e n tr y .   S u b se q u e n tl y ,   we   d e p e n d   o n   a n   e x ten si v e   lex ico n   o f   o v e 7   m il li o n   ste m to   v e rify   t h e   p o ten ti a ste m s.  Las tl y ,   we   e m p l o y   a   sta ti stica m o d e t o   a sc e rtain   t h e   m o st   li k e ly   ste m   b a se d   o n   th e   s e n ten c e ' c o n tex t.   E x p e rime n t a re su lt d e m o n stra te  t h e   e ffe c ti v e n e ss   o f   th e   p r o p o se d   ste m m e in   c o m p a r iso n   with   e x isti n g   o n e s.  Us in g   d iffere n t   d a tas e ts,  o u r   ste m m e a c h iev e h ig h e r   a c c u ra c y   a n d   F 1   sc o re s,  h ig h li g h t in g   it s e fficie n c y   i n   Ara b ic ste m m in g   tas k s.   K ey w o r d s :   Ar ab ic  lan g u a g e   L ar g lex ico n   Natu r al  lan g u ag e   p r o ce s s in g   Stem m in g   Su p er v is ed   lear n in g   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Dr is s   Nam ly   Dep ar tm en t o f   C o m p u ter   Scie n ce ,   Mo h am m ed   Un iv e r s ity   in   R ab at,     Av en u d es Na tio n s   Un ies B . P: 8 0 0 7 . N. U,   Ag d al,   R ab at,   M o r o cc o   E m ail: d . n am ly @ u m 5 r . ac . m a       1.   I NT RO D UCT I O N   Stem m in g   is   th p r o ce s s   o f   r e m o v in g   p r ef ix es,  in f ix es,  an d   s u f f ix es  f r o m   w o r d   th at  h as  u n d er g o n e   d er iv atio n   o r   in f lectio n ,   r esu ltin g   in   its   s tem   f o r m   [ 1 ] Stem m in g   to o ls   ca n   b class if ied   as  eith er   r o o t - b ased   o r   s tem - b ased ,   d ep e n d in g   o n   th ty p o f   th e   r esu ltin g   f o r m   [ 2 ] Fo r   ex am p le,   wh e n   t h wo r d   ةب ت ك م لا   is   s tem m ed   u s in g   r o o t - b ased   s tem m er ,   it r esu lts   in   th r o o بت ك ,   wh er ea s   s tem - b ased   s te m m er   p r o d u ce s   th s tem   ةب ت ك م .   T h ese  to o ls   ty p ic ally   r ely   o n   o n o r   m o r e   o f   th f iv e   m ain   s tem m in g   ap p r o a ch es.  Firstl y ,   clitic  s tr ip p in g   in v o lv es  r em o v i n g   s o m clitics   f r o m   wo r d s   with o u an y   ad d itio n al  p r o c ess in g   [ 3 ] Patter n   d etec tio n   r elies  o n   lin g u is tic  r u les  to   ex p lain   th e   d er iv atio n   o r   in f lectio n   o f   Ar a b ic  wo r d s   [ 4 ] .   L ex ic o n - b ased   m eth o d s   u s m an u ally   co n s tr u cted   lex i co n s   as  lo o k u p   tab les   to   s to r e   s tem s   o r   r o o ts   [ 2 ] .   Statis tical  ap p r o ac h es  id en tif y   wo r d   f ea t u r es  th r o u g h   a   tr ain in g   p h ase,   u s in g   th tr ai n ed   m o d el  to   d eter m i n th e   s tem s   o f   n ew  wo r d s   [ 3 ] L astl y ,   h ea v y   s tem m in g   u tili ze s   m o r p h o l o g ical  an aly s is   to   ex tr ac s tem s   o r   r o o ts   f r o m   in p u wo r d s ,   o f f er in g   a   m o r th o r o u g h   a n aly s is   [ 5 ] [ 7 ] .   s u r v ey   o f   Ar a b ic  lig h s tem m in g   ex h ib its   v ar io u s   to o ls ,   ea ch   with   ad v a n tag es  an d   d r awb ac k s .   L ar k ey   et   a l.' s   L ig h t1 0   s tem m er   [ 8 ] ,   [ 9 ] ,   wh ich   u tili ze s   af f ix   s tr ip p in g ,   is   wid ely   u s ed   d esp ite  is s u es  with   er r o n e o u s ,   s in g le,   an d   am b i g u o u s   o u tco m es.  Saad   an d   Ash o u r   [ 1 0 ]   in tr o d u ce d   n o v el  af f ix - r em o v al  alg o r ith m   in co r p o r ated   in to   W E KA  an d   R ap id Min er ,   th o u g h   it  also   f ac ed   p r o b lem s   with   am b ig u o u s   s in g le  o u tp u an d   er r o n e o u s   s tem m in g .   AR L Stem   [ 1 1 ]   f o cu s es  o n   elim in atin g   p r ef ix es,  s u f f ix es,  an d   in f ix es.   FAR A SA  [ 1 2 ]   em p lo y s   s u p p o r v ec to r   m ac h in e   to   r a n k   p o ten tial  s tem s   b u lack s   d iacr itic  m ar k s ,   r esu ltin g   in   am b ig u o u s   o u tp u t.  C o n d L i g h [ 1 3 ]   en h a n ce s   L ig h t 1 0   with   r u les  f o r   d ef in ite   ar ticles  a n d   p lu r al  s u f f ix es,  Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         A n   in n o va tive  A r a b ic  lig h t stemme r   d ev elo p ed   u s in g   a   h yb r id   a p p r o a ch   ( Dri s s   N a mly )   2357   s h o win g   5 r etr iev al  im p r o v em en b u s till   s tr u g g lin g   with   er r o n e o u s   s tem m in g .   T ash a p h y n 0 . 4   [ 1 4 ]   u s es  Fin ite - State  Au to m ato n ,   p r o d u cin g   s in g le,   a m b ig u o u s   s tem s .   Ass em   Ar ab ic  lig h s tem m in g   alg o r ith m   [ 1 5 ] p ar t o f   th Sn o wb all  s tem m er ,   p er f o r m s   clitic  s tr ip p in g   f o llo wed   b y   p atter n   m atch in g   b u t is p r o n to   in co r r ec t   s tem m in g .   Mo r p h o l o g ical  an a ly ze r s   [ 5 ] [ 7 ] ,   [ 1 6 ] [ 1 9 ]   p r o v id co m p r eh en s iv e   d iacr itized   f o r m s   a n d   v ar io u s   f ea tu r es,  lead in g   t o   in cr ea s ed   am b ig u ity   b y   p r esen tin g   all  p o s s ib le  s o lu tio n s   f o r   ea ch   wo r d .   Desp ite  ad v an ce m en ts   in   Ar ab ic  s tem m in g ,   ex is tin g   s tem m er s   en co u n ter   th e   ch allen g es o f   er r o n e o u s   s tem m in g ,   am b i g u o u s   o u tp u t,  s in g le  o u tco m e,   a n d   th li n g u is tic  s p ec if icities   o f   Ar ab ic  th at  h in d er   th eir   ef f ec tiv en ess .   T h f ir s is s u i s   er r o n eo u s   s tem m in g ,   wh er s u b s tr in g s   with in   wo r d s   ar in co r r ec tly   id en tifie d   as  af f ix es  o r   p ar ts   o f   s tem s .   Fo r   in s tan ce ,   t h wo r d   ط اسوأ   ( OwsAT)   ca n   b in ac c u r ately   s tem m ed   as  ط ا َ س ْ و َ أ   ( Mid s ts ) ,   ط ا َ س َ و + َ أ   ( I s   W A S AT ) ,   o r   ط ا َ س + َ و َ أ   ( Did   h e   f l ag ellate? ) .   An o th er   s ig n if ica n ch allen g is   th e   am b ig u ity   in   o u t p u d u to   n o n - d iacr itized   s tem s .   T h is   lead s   to   m u ltip le  in ter p r etatio n s   o f   s in g le  s tem .   Fo r   ex am p le,   th s tem   o f   th wo r d   اه لمجو   ( wjm lh A)   is   لم ج   ( jm l)   with   th p r ef ix   و   ( w)   an d   th s u f f ix   اه   ( h A) .   Ho we v er ,   t h n o n - d iacr itized   s tem   لم ج   ca n   r ef er   to   v ar io u s   m ea n in g s ,   in clu d in g   ل َ م َ ج   ( C am el) ,   ل ُ م َ ج   ( B co m ely ) ,   ل م َ ج   ( Ma k it  p r etty ) ,   o r   ل َ م ُ ج   ( Sen te n ce s ) .   Fu r th er m o r e,   m an y   s te m m er s   p r o d u ce   o n ly   s in g le  o u tco m e,   d is r eg ar d in g   th e   lin g u is tic  r ea lity   t h at  wo r d s   ca n   p o s s ess   m u ltip le  s tem s .   Fo r   in s tan ce ,   th e   wo r d   دوأ   ( OwlAd )   ca n   b e   s tem m ed   as  th p lu r al  د َ ْ و َ أ   ( C h ild r en ) ,   th n o u n   د َ ِ و + َ أ   ( W as  h b o r n   f r o m ?) ,   o r   th v er b   ّ   د َ + َ و َ أ   ( An d   d id   h q u ar r el  with   h im ? ) .   L astl y ,   t h u n i q u c h ar ac ter is tics   o f   th Ar ab ic  lan g u ag e,   in clu d in g   th lack   o f   ca p italiz atio n   f o r   p r o p e r   n o u n s   an d   th e   ab s en ce   o f   clea r   r u les  f o r   b r o k en   p lu r als,  f u r th er   d im in is h   th ef f ec tiv e n ess   o f   c u r r en t stem m in g   alg o r ith m s .     Ou r   r esear ch   aim s   to   cr ea te  a   n o v el,   p r ec is e,   a n d   er r o r - f r ee   Ar ab ic  lig h t   s tem m er   th at   ad d r ess es  th lim itatio n s   o f   e x is tin g   s tem m i n g   alg o r ith m s .   Pre v io u s   ap p r o ac h es  o f ten   s tr u g g le  with   am b ig u o u s   o u tp u ts   an d   ten d   to   p r o v id e   a   s in g le - s tem   o u tco m e,   wh ich   d o es   n o t   r ef le ct  th lin g u is tic  r ich n ess   o f   th Ar ab ic   lan g u a g e.   Ou r   p r o p o s ed   s tem m in g   ap p r o ac h   lev er ag es  d ee p   m o r p h o lo g ical  u n d er s tan d i n g   o f   Ar ab ic  w o r d s   to   o v er co m th ese  ch allen g es.  T h is   m eth o d   g en er ates  all  p o ten tial  s tem s   f o r   g iv en   wo r d ,   allo win g   f o r   m o r e   co m p r eh e n s iv an aly s is .   Fo ll o win g   th is ,   a   co m p r eh en s iv s tem s   lex ico n   v er if ies  th e   s u g g ested   s tem s ,   an d   a   s tatis t ical  alg o r ith m   ev alu ates  th co n tex to   d eter m in th m o s lik ely   s tem ,   en s u r in g   th at  th o u tp u is   ac cu r ate  an d   c o n tex t u ally   r ele v an t.   T h im p lem en tatio n   o f   o u r   p r o p o s ed   s tem m in g   ap p r o ac h   h as  d em o n s tr ated   s ig n if ican im p r o v em e n ts .   Ou r   d e v elo p ed   s tem m er   ef f ec tiv ely   id en tifie s   all  p o s s ib le  d iacr itized   s tem s ,   with   th e   f ir s s tem   b ein g   th e   m o s p r o b a b le  b as ed   o n   th c o n tex t.   T h is   ad v a n ce m en d i r ec tly   ad d r ess es  th s h o r tco m in g s   o f   ex is tin g   s tem m er s   b y   m in im iz in g   am b ig u o u s   o u tp u ts   an d   p r o v id in g   m u ltip le  s tem   o p tio n s ,   th er eb y   en h a n cin g   th o v er all  ac cu r ac y   a n d   r eliab ilit y   o f   Ar ab ic  s tem m in g .       2.   P RO P O SE AP P RO ACH   Ou r   Ar ab ic  lig h s tem m er   ( AL Stem m er )   is   s tr u ctu r ed   in to   th r ee   d is tin ct  s tag es,  as  illu s tr ated   in   Fig u r 1 .   T h s tem m in g   p r o ce s s   b eg in s   with   p r ep r o ce s s in g   in clu d in g   to k en izatio n ,   n o r m aliza tio n ,   a n d   v o ca b u lar y   g e n er atio n .   I n   th in itial  s tag e,   p o ten tial  clitics   ar elim in ated   f r o m   w o r d s   b as ed   o n   p r ed ef in e d   clitic  r u les  lex ico n ,   g iv in g   r is to   th ca n d i d ate  s tem s .   T h lis o f   ca n d id ate  s tem s   is   th en   v alid ated   in   t h e   s ec o n d   s tag u s in g   lar g s tem s   lex ico n .   T h f in al  s tag f o cu s es  o n   r eso lv in g   t h am b ig u ity   o f   th v alid   s tem s   b y   em p lo y in g   s tatis tic al  alg o r ith m   to   d eter m in t h m o s t p r o b a b le  o n e   with in   th g iv en   co n tex t.     2 . 1 .     P ha s 1 :   rules - ba s ed  ph a s   I n   th is   p h ase,   o u r   p r im ar y   g o a is   to   lev er ag g r am m atica r u les  to   ex tr ac all   p o s s ib le  s tem s   f o r   ea ch   wo r d .   B y   co n s id er in g   m u ltip l p o ten tial  s tem s ,   we  ef f ec tiv ely   ad d r ess   th lim itatio n   o f   s in g u lar   o u tco m es  o b s er v ed   in   o th er   s tem m in g   m eth o d s .   T h is   ap p r o ac h   alig n s   with   th lin g u is tic  r ea lity   t h at  Ar ab ic  wo r d s   ca n   h av m u ltip le  v alid   s tem s .   Fu r th er m o r e ,   we  em p lo y   clitic  s tr ip p in g   tec h n iq u to   en h a n ce   th ef f icien cy   o f   th s tem m in g   p r o ce s s .   Un lik o th er   s tem m in g   alg o r ith m s ,   th is   ap p r o ac h   s ig n i f ican tly   r ed u ce s   p r o ce s s in g   tim e,   m ak in g   t h p r o ce s s   m o r ef f ec tiv an d   p r ac tical  f o r   r e al - wo r ld   ap p licatio n s .   Ar ab ic  co n ca ten ativ m o r p h o l o g y   is   d ef in e d   b y   th e   f o r m atio n   o f   wo r d s   th r o u g h   th a g g lu t in atio n   o f   s eq u en ce   th at  in clu d es  p r o clitic,   s tem ,   an d   an   en clitic.   I n   th is   s tr u ctu r e,   th p r o clitic  attac h es  b ef o r th s tem ,   wh ile  th en clitic  i s   p o s i tio n ed   af ter   th s tem .   B o th   p r o clitics   an d   en clitics   ca n   ex is t   in   ato m ic  f o r m s   o r   as  co m b in atio n s .   W h en   two   o r   m o r ato m ic  p r o clitics   ( o r   en clitics )   ar co m b in ed ,   th ey   cr ea te  s in g le   co m b in ed   p r o clitic  ( o r   en cliti c) .   Fo r   in s tan ce ,   th co m b in e d   p r o clitic  ّ َ س َ أ   ( d o   -   will)  is   f o r m ed   f r o m   th ato m ic  p r o clitics   َ   أ   ( d o )   an d   ّ َ س   ( will).   I n   th is   p h ase,   th s tem m er   f ir s to k en izes  an d   n o r m alize s   th in p u tex t.  Fo r   ea ch   v o ca b u lar y   en tr y ,   th s tem m er   ex p lo its   th clitics   lex ico n   to   id en tify   all  p o ten tial c o m b in atio n s   o f   clitics   attac h ed   to   th wo r d .   T h is   lex ico n   p r o v id es  a   s et  o f   ca n d id ate  s tem s   b ased   o n   th id e n tifie d   clitics .   T h e   le x ico n   o f   clitic  r u les  in clu d es  1 2   ato m ic   p r o clitics   m o d eled   u s in g   9   g r am m atica r u les,  alo n g   with   1 4   ato m ic  e n clitics   d ef in ed   b y   6   co r r esp o n d in g   r u les.  T h a p p l icatio n   o f   th ese  clitic  r u les  r e s u lts   in   to tal  o f   9 4   p r o clitics   an d   7 3   en clitics ,   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   2 Ap r il   20 25 :   2 3 5 6 - 2 3 6 3   2358   en co m p ass in g   b o th   ato m ic  a n d   co m b in ed   f o r m s .   T ab le  1   p r o v id es  ex a m p les  o f   th g e n er ated   ato m ic  an d   co m b in ed   p r o clitics   an d   e n clitics   an d   th eir   u s ag e,   c o m p o s itio n ,   an d   f ea tu r es.   T o   illu s tr ate  th is   p r o ce s s ,   l et's  co n s id er   th in p u wo r d   هل جأ   ( Ojlh ) .   B y   ap p ly in g   th clitic  id en tific atio n   r u les,  th e   s tem m er   g e n er ates  f o u r   p o ten tial   s eg m en tatio n s   ( ه +لج+ أ ّ ، ه جأ ّ ، هل ج+أ ّ ، هل جأ ) .   Fro m   th ese  s eg m en tatio n s ,   th s tem m er   id en tifie s   th p o ten tial  clitics   أ -   an d   - ه   an d   ex tr ac ts   th p r o b a b le  s tem   لج   ( jl)  b ased   o n   t h s eg m en t atio n   ه +لج+ أّ= ّ هل جأ           Fig u r 1 .   Pro p o s ed   ar c h itectu r f o r   AL Stem m er       T ab le  1 .   Sam p les o f   ato m ic  an d   co m b i n ed   clitics     C l i t i c ّ Ty p e   Ex a m p l e ّ C o m p o si t i o n ّ F e a t u r e s ّ ّ ِ ب   W i t h   P r o c l i t i c   ّ ُ ت ْ ع َ ط َ ق ّ ِ ب ّ ِ ن ي ِ ك ِ   س ل ا ّ I   c u t   w i t h   t h e   k n i f e   ّ ِ ب   W i t h ّ ّ ر ج لا ّ فر ح   P r e p o si t i o n   ي ةم لك لا ّ ر ج   P u t t h e   w o r d   i n   t h e   g e n i t i v e   c a s e   ّ ا َ م ُ ك   Y o u r   En c l i t i c   ّ ْ ي َ ت َ ب ي ِ ق َ ح ّ َ ِ م ْ ح ِ ا ّ ا َ م ُ ك   C a r r y   y o u r   t w o   b a g s   ّ ا َ م ُ ك   Y o u r ّ ن ي ب طا خ م لا ّ ر ي م ض   A d d r e ss e e s   p r o n o u n   ى ن ث م لا ّ ، ث ن ؤم ل اوّ ر ك ذ م لل ،   ب طا خ م لا ّ f e mi n i n e ,   mas c u l i n e ,   d u a l ,   2 n d   p e r s o n   ّ ا َ ه ي ِ ن   i t   t o   me   En c l i t i c   و ُ م ُ ت ْ ي َ ق ْ س َ أ ّ ي ِ ت ل ا ّ َ س و ُ ؤ ُ ك ل ا ّ ا َ ه ي ِ ن   Th e   c u p s   y o u   g a v e   i t   t o   me   ّ ي ِ ن   t o   me ّ ّ م لك ت م لا ّ ء ا ي + ةي ا قول اّ ن ون   P r e v e n t i o n   n w n   a n d   s p e a k e r   y A   ّ م لك ت م لا ّ ، د ر ف م لا ّ ، ث ن ؤم ل اوّ ر ك ذ م لا   f e mi n i n e ,   mas c u l i n e ,   s i n g u l a r ,   1 st   p e r s o n   ا َ ه   it   ةب ئ ا غ لا ّ ر ي م ض   A b se n t   p r o n o u n   ب ئ ا غ ل اّ ، د ر ف م لا ّ ، ث ن ؤم لا   f e mi n i n e ,   si n g u l a r ,   3 r d   p e r s o n       2 . 2 .     P ha s 2 :   L ex ico n - ba s ed  ph a s   T h s ec o n d   p h ase  o f   o u r   s tem m er   is   cr u cial  in   en s u r in g   t h v alid ity   o f   th e   ca n d id ate  s tem s   id en tifie d   in   th p r ev io u s   p h ase.   W ef f ec tiv ely   ad d r ess   er r o n eo u s   an d   am b ig u o u s   s tem m in g   co n ce r n s   u s in g   a   co m p r eh e n s iv lex ico n   o f   v al id   an d   d iacr itized   s tem s .   T o   ac h iev th is ,   we  r ely   o n   co m p r eh en s iv Ar ab ic   L E Mm as  ( C AL E M [ 2 0 ] ,   o u r   lar g lex ico n   o f   Ar ab ic  s tem s   an d   th eir   co r r esp o n d i n g   lem m as.  T h in itial  s et   o f   ca n d id ate  s tem s   p r o d u ce d   in   th e   p r ec e d in g   p h ase   is   u s ed   to   au t h en ticate  th e   s tem s   b y   ch ec k i n g   t h eir   p r esen ce   in   th C AL E l ex ico n .   I f   ca n d id ate  s tem   is   f o u n d   in   C AL E M,   it  is   co n s id er ed   v alid .   C o n v er s ely ,   if   a   ca n d id ate   s tem   is   ab s en in   C AL E M,   it  in d icate s   th at  th s eg m en tatio n   r e s u ltin g   in   th is   s tem   is   in v alid .   Fo r   in s tan ce ,   b y   ch ec k in g   th e   p r o b ab le   s tem   لج   ( jl)  in   C AL E M,   we  o b tain   two   v alid   a n d   d iacr itized   s tem s   ّ   ل ُ ج ّ ،   ل َ ج   ( B m ajestic,  m o s t o f ) .   C AL E was  co n s tr u cted   u s i n g   d atab ase  co m p r is in g   th m o s co m m o n ly   u s ed   Ar a b ic  v er b s ,   co n s is tin g   o f   2 4 , 1 7 1   v er b s   g e n er ated   f r o m   Ar ab ic  r o o ts .   Af ter   co n ju g atin g   th ese  v er b s ,   d er iv ed   n o u n s   wer e   o b tain ed   b y   a p p ly in g   th e   d er i v atio n   p r o ce s s   to   all  v er b al  c ateg o r ies.  T h e   lex ico n   was  f u r th er   en r ich ed   with   Ar ab ic  p ar ticles  an d   n o n - d er i v ed   n o u n s ,   s u ch   as  p r o p er   n o u n s   an d   b r o k en   p lu r als,  to   e n co m p ass   all  Ar ab ic  lan g u ag s p ec if icities .   As  r esu lt,  C AL E in co r p o r ates  1 6 6 , 9 6 3   lem m as  d ep icted   b y   7 , 1 3 3 , 1 0 6   s tem s   in   th eir   d iacr itized   f o r m .   T h is   co m p r eh e n s iv ap p r o ac h   h el p s   p r ev e n lan g u ag e   s p ec if icity   an d   am b ig u o u s   o u tp u t sh o r tco m in g s   d u r in g   th s tem m in g   p r o ce s s .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         A n   in n o va tive  A r a b ic  lig h t stemme r   d ev elo p ed   u s in g   a   h yb r id   a p p r o a ch   ( Dri s s   N a mly )   2359   2 . 3 .     P ha s 3 :   s t a t is t ica l pha s e   I n   th e   s tatis tical  s tem m in g   p h ase,   we  r eso lv e   am b ig u ities   b y   s elec tin g   th e   m o s ap p r o p r iate  s tem   f r o m   lis o f   v alid   s tem s   b ase d   o n   th e   s en ten ce ' s   co n tex t.   T h is   p r o ce s s   em p lo y s   a   s u p e r v i s ed   lear n in g   m et h o d   to   id en tify   th b est  s tem   f o r   e ac h   in p u wo r d ,   co n s id er i n g   it s   s u r r o u n d in g   wo r d s .   T o   ac co m p lis h   th is   task ,   we   ca n   u s g e n er ativ m o d el,   s u ch   as  th h id d en   Ma r k o v   m o d el  ( HM M)   o r   lo n g   s h o r t - ter m   m em o r y   ( L STM )   n etwo r k s .   R ec en r esear ch   [ 2 1 ]   h as  in d icate d   th at  HM Ms  ar s im p ler   an d   m o r e   tr an s p a r en t   co m p ar ed   t o   L STM s ,   m ak in g   th em   ef f ec tiv f o r   a p p r o x im a tin g   th p er f o r m an ce   o f   L STM s .   T h is   s im p licity   allo ws  f o r   m o r e f f icien tr ain in g   an d   ca n   im p r o v o v er all  p er f o r m a n ce .   T h e r ef o r e ,   we  im p lem en an   HM M   f o r   o u r   s tatis tical  s tem m in g   p r o ce s s .   I n   o u r   HM m o d el,   o b s er v e d   s tates   co r r esp o n d   to   th e   wo r d s   in   th e   in p u s en ten ce ,   wh il “h id d e n   s tates”   r ep r esen th p o ten tial  s tem s   id en tifie d   d u r in g   t h s ec o n d   p h ase  o f   th s tem m in g   p r o ce s s .   Fo r   ex am p le,   as sh o wn   in   Fig u r 2 ,   if   th o b s er v ed   s tate  is   رس   ( s r ) ,   th h id d en   s tates c o u ld   in clu d َ ر ِ س   ( walk ) ,   ر ُ س   ( u m b ilical  co r d ) ,   َ   ر ُ س   ( b h ap p y ) ,   َ   ر   س   ( d elig h t) ,   an d   َ   ر ِ س   ( s ec r et) .   I n   m o r f o r m al  way ,   to   f in d   f o r   th s en ten ce   Ph   ( w 1 ,   w 2 ,   . . . ,   w n )   th m o s p r o b ab le  s eq u en ce   o f   s tem s   ( s 1 * ,s 2 * ,   …,   s n * ) ,   th HM m o d el    λ ( S,  A,   B ,   π)   ad m its   th e   f o llo win g   p ar am eter s S   {s 1 ,   s 2 ,   …,   s m th s et  o f   s tem s   in   th Ar ab ic  lan g u ag e ,   a ( i,j)   th p r o b ab ilit y   f o r   s tem   s i   to   b f o llo wed   b y   th s tem   s j b i ( t)   th p r o b a b ilit y   f o r   t h wo r d   w t   to   g iv th s tem   s i ,   an d   π i   th p r o b a b ilit y   f o r   Ph   to   s tar with   th s tem   s i .   T h elem en ts   o f   m at r ices  A,   B ,   an d   π  ar e   d ef in ed   b y   eq u atio n s   ( 1 ) ,   ( 2 ) ,   an d   ( 3 )   as f o llo ws:     ( i , j ) =         1 , 1   ( 1 )     ( ) =         1 , 1     ( 2 )     =      ( 3 )     wh er th m o d el  p ar am eter s   a r esti m ated   u s in g   tr ain in g   c o r p u s   C   co m p o s ed   o f   N   wo r d s   an d   s en ten ce s ,   n ij   is   th e   o cc u r r en ce   n u m b er   in   C   o f   th e   s tem   s i   f o llo wed   b y   th e   s tem   s j n i   is   th e   o cc u r r e n ce   n u m b er   in   C   o f   th s tem   s i m it   is   th o cc u r r en ce   n u m b e r   in   C   o f   th wo r d   w t   ass o ciate d   w ith   th s te m   s i ,   an d   n io   is   th e   o cc u r r e n ce   n u m b er   in   C   o f   s e n ten ce s   s tar tin g   with   th s tem   s i .   T o   r ef in o u r   m o d el,   we  ap p l y   th ab s o lu te  d is co u n tin g   s m o o th in g   tech n iq u e ,   wh ich   h elp s   ad ju s t   th elem en ts   o f   th m atr ices  th at  m ay   h av b ee n   esti m ated   as  ze r o .   Fin ally ,   we  u tili ze   th Viter b alg o r ith m   to   f in d   th b est  s eq u en ce   o f   h id d en   s tates  ( s tem s )   th at  co r r esp o n d   to   th o b s er v ed   s tates  ( wo r d s )   in   th in p u t   s en ten ce .   T h is   alg o r ith m   ef f icien tly   d eter m in es  th e   m o s l ik ely   s eq u en ce   o f   s tem s ,   en s u r in g   a   co n te x tu ally   ap p r o p r iate  an d   ac cu r ate  o u tp u t.           Fig u r 2 .   T h d is am b ig u atio n   p h ase  o f   th e   s tem m er       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   2 Ap r il   20 25 :   2 3 5 6 - 2 3 6 3   2360   3.   E XP E R I M E N T S AN RE S UL T S   T h is   s ec tio n   p r esen ts   two   e x p er im en ts .   T h f i r s ex p er i m en co m p ar es  AL Stem m er   an d   o th er     s tate - of - th e - ar s tem m er s   to   ev alu ate  th eir   ef f icien cy .   T h s ec o n d   ex p er im e n s h o wca s es  th at  u tili z in g   AL Stem m er   is   th o p tim al  o p t io n   f o r   r etr iev al  task s .     3 . 1 .     E f f iciency   ex peri m ent   T o   v alid ate  th ef f ec tiv e n ess   o f   AL Stem m er ,   we  co n d u ct ed   s er ies  o f   ex p er im en ts   in   wh ich   we   m eticu lo u s ly   co m p a r ed   its   p er f o r m a n ce .   W aim   to   d em o n s tr ate  its   ef f icien cy   an d   s u p er io r ity   o v er   e x is tin g   s tem m er s .   T o   en s u r co m p r eh en s iv an aly s is ,   we  u tili ze   th m o s r eliab le  d ata  s et s   a m o n g   th av ailab le   o n es .     T h n o r m alize d   Ar ab ic  f r ag m en ts   f o r   in esti m ab le  s tem m in g   ( NAFI S [ 2 2 ]   is   a   co r p u s   u s ed   to   ev alu ate  t h e   ef f ec tiv en ess   o f   Ar ab ic   s tem m er s .   I e n co m p ass es  co m p r eh en s iv c o llectio n   o f   Ar a b i clitics   co v er in g   all  p o s s ib le  co m b in atio n s .   E ac h   wo r d   in   th co r p u s   is   m an u ally   an n o tated   with   m u ltip le   p o ten tial  s tem s   an d   r o o ts ,   with   th in itial a n n o tatio n   in d icatin g   th e   co r r ec t so lu tio n   with in   th s en ten ce ' s   co n tex t.     T h Al - Mu s h af - c o r p u s   ( AM C [ 2 3 ]   i   is   a   co m p ilatio n   o f   th Qu r an ic  te x en r ic h ed   with   m o r p h o lo g ical  tag s .   I t c o n tain s   7 7 , 8 8 3   wo r d s   m an u ally   an n o tated   with   th e   s tem   tag .   W n o te  th av ailab ilit y   o f   an o th er   co r p u s   ca lled   T h g o ld en   Ar ab ic  co r p u s   [ 2 4 ]   f o r   ass es s in g   Ar ab ic  s tem m er s .   Ho wev er ,   it s   m an u al  v er if icatio n   d em o n s tr ates  its   lim itatio n s   s u ch   as  ّ ّ ، هت ب اوب ب ّ ، ج ارخإب ّ ، يتفتس ا مهلافطأ و ّ ، مهتي ب ب ّ ، سر دف   ( He  was  ask ed   f o r   f atwa ,   h e   b r o u g h t   o u t,   at  h is   g ate,   s o   h e   s tu d ie d ,   with   th eir   h o u s e,   an d   th eir   c h ild r en )   wer s tem m ed   as  لافط ّ ، تي ب ب ّ ، س ر دف ّ ، ب اوب ب ّ ، ج ارخ ّ ، ف ت سا   ( A s tf ,   x r Aj,   b b wAb ,   th en   h s tu d ie d ,   in   th h o u s e,   T f Al)   wh ich   is   in ac cu r ate.   T h er ef o r e,   o u r   s tem m er ' s   p er f o r m an ce   is   ev al u ated   b y   co m p ar in g   it  to   th e   m o s t   av aila b le  Ar ab ic  lig h s tem m er s   lik A R L Ste m ,   Ass em ,   C o n d L ig h t,  FAR ASA ,   L ig h t1 0 ,   Saad ,   an d   T a s h ap h y n e.   C am elir an aly ze r   [ 7 ]   a n d   C h atGPT   ar e   ad d ed   to   t h ev alu atio n .   C am elir an aly ze r   is   in co r p o r ated   in to   th e v alu atio n   b ec au s it  p r o v id es  m u ltip le  d iacr itized   s o lu tio n s ,   with   t h e   m o s p r o b ab le  o n e   d eter m in ed   b y   th s en ten ce   co n tex t,  u n lik lig h s tem m er s   th at  o f f er   s in g le  s o lu tio n   with o u d iacr itics .   Fu r th er m o r e,   in   alig n m en with   th g r o win g   tr e n d   o f   u tili zin g   L L Ms,  p r elim in ar y   ass ess m en was  co n d u cte d   to   ev al u ate  v ar io u s   L L Ms  ( s u ch   as  L L aM 3   an d   Mix tr al  8 x 7 B )   f o r   s tem m in g   p u r p o s es.  T h f in d in g s   r ev ea led   th a C h atGPT   y ield ed   th m o s t f av o r ab le  o u tco m es.   T o   co n d u ct  th e   ev alu atio n ,   e ac h   wo r d   in   th e   two   d atasets   u n d e r wen s tem m in g   u s in g   all  o f   th ese  s tem m er s   an d   is   th e n   class if ied   as  tr u e   p o s itiv e,   f alse  p o s itiv e,   tr u e   n eg ativ e ,   o r   f alse n eg at iv e.   T h e   ev alu atio n   m etr ics  em p lo y ed   in   th ex p er im en ts   ar Acc u r ac y   an d   F1   s co r e.   T h ev alu atio n   r esu lts   u s in g   th two   co r p o r ar illu s tr ated   in   Fig u r es  3   an d   4 .   T h AL Stem m er   d em o n s tr ates  s u p er io r   p e r f o r m an ce ,   ac h iev in g     F1   s co r es  o f   0 . 8 6 6 0 ,   an d   0 . 9 2 8 2 ,   al o n g   with   Acc u r ac y   v alu es  o f   0 . 8 2 5 6 ,   an d   0 . 8 6 5 9   wh e n   u tili zin g   NAFI S,   an d   AM C ,   r esp ec tiv ely .           Fig u r 3 .   T h F1   s co r a n d   ac cu r ac y   o f   th s tem m er s   ev alu a ted   u s in g   th NAFI S c o r p u s       3 . 2 .     I nfo r m a t io n r e t riev a l e x perim ent   P r e v i o u s   s t u d i e s   h a v e   s u g g e s t ed   t h a t   l e m m a t i z at i o n   [ 2 5 ] ,   [ 2 6 ]   a n d   r o o t - b a s e d   s t e m m i n g   [ 2 7 ] [ 2 9 ]   a r e   b e t t e r   s u it e d   f o r   r e t r i e v a l   t a s k s   d u e   t o   t h e i r   a b i l it y   t o   s i g n i f i c an t l y   r e d u c e   v o c a b u l a r y   s i z e   i n   c o m p a r i s o n   t o   l i g h Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         A n   in n o va tive  A r a b ic  lig h t stemme r   d ev elo p ed   u s in g   a   h yb r id   a p p r o a ch   ( Dri s s   N a mly )   2361   s t e m m i n g .   Ne v e r t h e l es s ,   t h e s e   m e t h o d s   m a y   g r o u p   w o r d s   w i th   d i s t i n ct   s e m a n t i c   m e a n i n g s   to g e t h e r ,   r e s u l t i n g   in   d e c r e a s e d   p r e c is i o n .   C o n s e q u e n t l y ,   o u r   e x p e r i m e n t   a i m s   t o   d e m o n s t r a t e   t h a t   s t e m m i n g ,   e s p e c i al l y   o u r   l i g h s t e m m e r ,   i s   m o r e   e f f e ct i v e   f o r   a n   i n f o r m a t i o n   r et r i e v a t as k .   T o   a c h i e v t h is ,   we   c o m p i le d   a n d   r e t r i e v e d   f i v v a r i a t i o n s   o f   a   s e t   o f   A r a b i c   d o c u m e n t s   t o   a s s e s s   t h e i r   i m p a ct   o n   p r e c i s i o n   a n d   r e c a l l   m e a s u r e s .   E a c h   v a r i a t i o n   e m p l o y s   d i f f e r e n t   i n d e x i n g   t e r m s .   T h e   i n it i a v a r i a ti o n   o f   t h e   c o r p u s   u s es   s u r f a ce   f o r m s   ( w o r d s ) ,   f o l l o w e d   b y   t w o   s te m   v a r i a ti o n s   u s i n g   A L St e m m e r   a n d   F AR AS A ,   t h e n   l em m a s ,   a n d   r o o t s   v a r i at i o n s .           Fig u r 4 .   T h F1   s co r a n d   ac cu r ac y   o f   s tem m er s   ev alu ated   u s in g   th Qu r a n ic  C o r p u s       T h u s ,   th Ar a b ic  n ews  ar ticles  f r o m   Aljaze er a. n et   d ataset  o b tain ed   f r o m   Kag g le  i s   u tili ze d ,   co n s is tin g   o f   5 , 8 7 0   n ews  ar ticles  wr itten   in   th Ar ab ic  la n g u ag s o u r ce d   f r o m   Aljaze er a. n et  web s ite.   T o   g en er ate  f iv d is tin ct  v ar iati o n s   o f   th e   d ataset,   in   ad d itio n   to   th e   in itial  co r p u s   c o m p o s ed   o f   wo r d s ,   th e   d o cu m e n ts   ar p r o ce s s ed   u s in g   AL Stem m er ,   FAR ASA  s te m m er ,   Saf ar   lem m atize r   [ 2 0 ] an d   Kh o ja  s tem m er   [ 3 0 ]   to   o b tain   v ar iatio n s   with   s tem s ,   lem m as,  an d   r o o ts   r esp ec tiv ely .   T h e   f iv e   co r p u s   v ar i atio n s   ar i n d ex e d   in   th E last icsear ch   en g in e,   u tili zin g   th in v er ted   in d ex i n g   m eth o d .   T h is   ap p r o ac h   ass o ciate s   ea ch   to k en   in   th co r p u s   ( wo r d ,   s tem ,   le m m a,   o r   r o o t)   with   th e   r elev an d o cu m e n ts   co n tain in g   it.  Su b s eq u en tly ,   th e   ef f ec tiv en ess   o f   th f iv e   r etr iev al  s y s tem s   is   m ea s u r ed   b y   an aly zin g   th eir   p r ec is io n   an d   r ec all  m etr ics.   Fig u r 5   d em o n s tr ates  n o ta b le  en h an ce m en in   r o o t - b ase d   r etr iev al  co m p ar e d   to   th wo r d ' s   s u r f ac f o r m .   C o n v er s ely ,   s tem - b ased   r etr iev al  u s in g   AL Stem m er   s u r p ass es  lem m a - b ased   r etr iev al  an d   ex h i b its   s ig n if ican t a d v an ta g o v e r   r o o t - b ased   r etr iev al.           Fig u r 5 .   Pre cisi o n   a n d   r ec all  f lu ctu atio n       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 7 0 8   I n t J E lec  &   C o m p   E n g ,   Vo l.   15 ,   No .   2 Ap r il   20 25 :   2 3 5 6 - 2 3 6 3   2362   Ad d itio n ally ,   it  is   w o r th   n o ti n g   th at   in   th e   r e g io n   with   h ig h er   p r ec is io n ,   th e   lem m a - b ased   r etr iev al   s lig h tly   o u tp er f o r m s   th s tem - b ased   o n with   FAR ASA.   T h is   in co n s is ten cy   ca n   b attr ib u t ed   to   th d iacr itics lack   in   th o u t p u p r o d u ce d   b y   th FAR ASA  s tem m er .   T h is   r eg io n   with   h ig h er   p r ec is io n   an d   lo wer   r ec all  i n   o u r   f ig u r h o ld s   g r ea ter   s ig n if ican ce ,   as  u s er s   in   W eb - lik m ed iu m   ar u n lik ely   to   r ea d   n u m er o u s   r etr iev e d   d o cu m e n ts   th o r o u g h ly .   Als o ,   t h p er f o r m an ce   d eg r a d atio n   o b s er v ed   wh en   u s in g   th Ar a b ic  s u r f ac f o r m   ca n   b attr ib u ted   to   th n u m er o u s   in f lecte d   v a r ian ts   o f   wo r d   i n   th Ar a b ic  lan g u ag e.   T h is   ab u n d an ce   o f   v ar ia n ts   r ed u ce s   th lik eli h o o d   o f   f in d in g   a   m atch   b etwe en   th e   q u er y   an d   th e   d o c u m en ts .   Fo r   ex am p le,   th e   ter m s   بت ك و   ( An d   h wr ites ) ,   تب ت ك و   ( An d   s h e   wr ites ) ,   بت ك ف   ( An d   h e   wr ites ) ,   هب ت ك و   ( An d   h wr ites   it),   اه ب ت ك و   ( An d   h wr ites   it)  r e p r esen t v a r iatio n s   o f   th wo r d   بتك   ( T o   wr ite) ,   y et  class if ied   as d is tin ct  wo r d s .       4.   CO NCLU SI O N   T h d is cu s s io n   o n   Ar ab ic  s te m m in g   en co m p ass es  an   ex p lo r atio n   o f   Ar ab ic  m o r p h o lo g y ,   v ar io u s   s tem m in g   ap p r o ac h es,  an d   th e   in tr o d u cti o n   o f   n o v el  lig h t   s tem m in g   alg o r ith m .   T h b asis   f o r   o u r   s tem m in g   tech n iq u e   is   d ef in e d   b y   th e   t em p latic  an d   co n ca te n ativ f ea tu r es  th at  ch a r ac ter ize  th e   s tr u ctu r ed   n atu r e   o f   Ar ab ic  m o r p h o lo g y .   T h p r o p o s ed   lig h s tem m in g   alg o r ith m   p r esen ts   th r ee - s tag p r o ce s s clitic  r em o v al,   s tem   v alid atio n ,   an d   s tatis ti ca d is am b ig u atio n .   E x p er i m en ts   co n d u cte d   to   ev al u at Ar ab ic  s tem m er s   d em o n s tr ate  th at  AL Stem m er   ef f ec tiv ely   id en tifie s   s tem s   b ased   o n   co n tex t,  a d d r ess in g   li m itatio n s   o b s er v ed   in   ex is tin g   s tem m er s .   T h s tem m er   co n s is ten tly   ac h iev es  h ig h er   ac cu r ac y   an d   F1   s co r es  th r o u g h   r ig o r o u s   an aly s is   ac r o s s   d if f er en t d atas ets,  af f ir m in g   its   ef f icien c y   an d   ef f ec tiv en ess   in   Ar ab ic  s tem m in g   task s .   I n   th f u tu r e ,   we  aim   to   en h an ce   o u r   s tem m er   in   two   p r i m ar y   way s ex p an d in g   th s tem /lem m lex ico n   to   in cl u d m is s in g   lem m as  lik n am ed   en titi es,   an d   im p r o v in g   co n tex d et ec tio n   to   r ed u ce   d ef icien cies  in   t h s tem m er .   T h ese  im p r o v em en ts   will  n o t   o n ly   e n h an ce   th e   ac cu r ac y   o f   o u r   s y s tem   b u t   also   co n tr ib u te  t o   d ee p er   u n d er s tan d in g   o f   la n g u a g n u an ce s ,   u ltima tely   lead in g   t o   b etter   o u tco m es  in   v a r io u s   n atu r al  lan g u ag p r o ce s s in g   ( NL P )   ap p licatio n s .       RE F E R E NC E S   [ 1 ]   M .   Y .   D a h a b ,   A .   I.   A l   I b r a h i m ,   a n d   R .   A l - M u t a w a ,   A   c o m p a r a t i v e   s t u d y   o n   A r a b i c   st e mm e r s,   I n t e r n a t i o n a l   J o u rn a l   o f   C o m p u t e r   A p p l i c a t i o n s ,   v o l .   1 2 5 ,   n o .   8 ,   p p .   3 8 4 7 ,   2 0 1 5 ,   d o i :   1 0 . 5 1 2 0 / i j c a 2 0 1 5 9 0 6 1 2 9 .   [ 2 ]   M .   M u s t a f a ,   A .   S .   El d e e n ,   S .   B a n i - A h ma d ,   a n d   A .   O .   E l f a k i ,   A   c o m p a r a t i v e   su r v e y   o n   A r a b i c   st e mm i n g :   a p p r o a c h e a n d   c h a l l e n g e s,   I n t e l l i g e n t   I n f o rm a t i o n   Ma n a g e m e n t ,   v o l .   0 9 ,   n o .   0 2 ,   p p .   3 9 6 7 ,   2 0 1 7 ,   d o i :   1 0 . 4 2 3 6 / i i m. 2 0 1 7 . 9 2 0 0 3 .   [ 3 ]   S .   M e m o n ,   G .   A .   M a l l a h ,   K .   N .   M e mo n ,   A .   S h a i k h ,   S .   K .   A a s o o r i ,   a n d   F .   U .   H .   D e h r a j ,   C o m p a r a t i v e   s t u d y   o f   t r u n c a t i n g   a n d   st a t i st i c a l   st e mm i n g   a l g o r i t h ms,   I n t e rn a t i o n a l   J o u r n a l   o f   A d v a n c e d   C o m p u t e S c i e n c e   a n d   Ap p l i c a t i o n s ,   n o .   2 ,   p p .   5 6 3 5 6 8 ,   2 0 2 0 ,   d o i :   1 0 . 1 4 5 6 9 / i j a c s a . 2 0 2 0 . 0 1 1 0 2 7 2 .   [ 4 ]   A .   W u l a n d a r i ,   K .   R a h ma t   S W ,   a n d   A .   R o ma d h o n y P a t t e r n - b a se d   s t e mm e r   a n a l y s i a n d   i m p l e me n t a t i o n   o n   A r a b i c   Te x t ,   S e m i n a N a s i o n a l   T e k n o l o g i   I n f o rm a s i   K o m u n i k a si   d a n   I n d u st r i ,   p p .   3 1 4 1 ,   2 0 1 1 .   [ 5 ]   M .   B o u d c h i c h e ,   A .   M a z r o u i ,   M .   O .   A .   O .   B e b a h ,   A .   La k h o u a j a ,   a n d   A .   B o u d l a l ,   A l K h a l i l   M o r p h o   S y 2 :   A   r o b u st   A r a b i c   mo r p h o - sy n t a c t i c   a n a l y z e r ,   J o u r n a l   o f   K i n g   S a u d   U n i v e rsi t y   -   C o m p u t e a n d   I n f o rm a t i o n   S c i e n c e s ,   v o l .   2 9 ,   n o .   2 ,   p p .   1 4 1 1 4 6 ,   2 0 1 7 ,   d o i :   1 0 . 1 0 1 6 / j . j k su c i . 2 0 1 6 . 0 5 . 0 0 2 .   [ 6 ]   D .   Ta j i ,   S .   K h a l i f a ,   O .   O b e i d ,   F .   Er y a n i ,   a n d   N .   H a b a sh ,   A n   A r a b i c   m o r p h o l o g i c a l   a n a l y z e r   a n d   g e n e r a t o r   w i t h   c o p i o u s   f e a t u r e s,   i n   Pr o c e e d i n g o f   t h e   f i f t e e n t h   w o rks h o p   o n   c o m p u t a t i o n a l   rese a r c h   i n   p h o n e t i c s,   p h o n o l o g y ,   a n d   m o rp h o l o g y ,   2 0 1 9 ,     p p .   1 4 0 1 5 0 ,   d o i :   1 0 . 1 8 6 5 3 / v 1 / w 1 8 - 5 8 1 6 .   [ 7 ]   O .   O b e i d ,   G .   I n o u e ,   a n d   N .   H a b a s h ,   C a m e l i r a :   a n   A r a b i c   m u l t i - d i a l e c t   m o r p h o l o g i c a l   d i s a mb i g u a t o r ,   i n   E M N L 2 0 2 2   -   2 0 2 2   C o n f e re n c e   o n   Em p i ri c a l   Me t h o d s   i n   N a t u r a l   L a n g u a g e   P ro c e ss i n g ,   Pro c e e d i n g o f   t h e   D e m o n s t ra t i o n S e ss i o n ,   2 0 2 2 ,     p p .   3 1 9 3 2 6 ,   d o i :   1 0 . 1 8 6 5 3 / v 1 / 2 0 2 2 . e mn l p - d e m o s. 3 2 .   [ 8 ]   L.   S .   L a r k e y ,   L.   B a l l e st e r o s ,   a n d   M .   E.   C o n n e l l ,   I mp r o v i n g   st e mm i n g   f o r   A r a b i c   i n f o r m a t i o n   r e t r i e v a l :   l i g h t   s t e mm i n g   a n d   c o - o c c u r r e n c e   a n a l y si s,   S I G I F o r u m   ( AC M   S p e c i a l   I n t e re st   G r o u p   o n   I n f o r m a t i o n   R e t r i e v a l ) ,   p p .   2 7 5 2 8 2 ,   2 0 0 2 .   [ 9 ]   L.   S .   L a r k e y ,   L.   B a l l e st e r o s,  a n d   M .   E.   C o n n e l l ,   Li g h t   s t e mm i n g   f o r   A r a b i c   i n f o r m a t i o n   r e t r i e v a l ,   Ar a b i c   C o m p u t a t i o n a l   Mo r p h o l o g y ,   p p .   2 2 1 2 4 3 ,   2 0 0 7 ,   d o i :   1 0 . 1 0 0 7 / 9 7 8 - 1 - 4 0 2 0 - 6 0 4 6 - 5 _ 1 2 .   [ 1 0 ]   M .   S a a d   a n d   W .   A sh o u r ,   A r a b i c   mo r p h o l o g i c a l   t o o l f o r   t e x t   m i n i n g ,   i n   6 t h   I n t e r n a t i o n a l   C o n f e re n c e   o n   El e c t ri c a l   a n d   C o m p u t e r   S y st e m s (EE C S 1 0 ) ,   N o v   2 5 - 2 6 ,   2 0 1 0 ,   L e f k e ,   C y p ru s . ,   2 0 1 0 ,   v o l .   1 8 ,   p .   1 9 .   [ 1 1 ]   K .   A b a i n i a ,   S .   O u a mo u r ,   a n d   H .   S a y o u d ,   A   n o v e l   r o b u st   A r a b i c   l i g h t   st e mm e r ,   J o u r n a l   o f   Ex p e ri m e n t a l   a n d   T h e o re t i c a l   Art i f i c i a l   I n t e l l i g e n c e ,   v o l .   2 9 ,   n o .   3 ,   p p .   5 5 7 5 7 3 ,   2 0 1 7 ,   d o i :   1 0 . 1 0 8 0 / 0 9 5 2 8 1 3 X . 2 0 1 6 . 1 2 1 2 1 0 0 .   [ 1 2 ]   A .   A b d e l a l i ,   K .   D a r w i sh ,   N .   D u r r a n i ,   a n d   H .   M u b a r a k ,   F a r a sa:   A   f a st   a n d   f u r i o u s   se g me n t e r   f o r   a r a b i c ,   i n   N A AC L - H L T   2 0 1 6   -   2 0 1 6   C o n f e r e n c e   o f   t h e   N o r t h   A m e ri c a n   C h a p t e r   o f   t h e   Ass o c i a t i o n   f o C o m p u t a t i o n a l   L i n g u i s t i c s:   H u m a n   L a n g u a g e   T e c h n o l o g i e s ,   Pr o c e e d i n g o f   t h e   D e m o n s t ra t i o n S e ss i o n ,   2 0 1 6 ,   p p .   1 1 1 6 ,   d o i :   1 0 . 1 8 6 5 3 / v 1 / n 1 6 - 3 0 0 3 .   [ 1 3 ]   Y .   A l - La h h a m,  K .   A l   M a t a r n e h ,   a n d   M .   H a ss a n ,   C o n d i t i o n a l   A r a b i c   l i g h t   st e mm e r :   C o n d Li g h t ,   I n t e r n a t i o n a l   Ara b   J o u rn a l   o f   I n f o rm a t i o n   T e c h n o l o g y ,   v o l .   1 5 ,   n o .   3 A   S p e c i a l   I ssu e ,   p p .   5 5 9 5 6 4 ,   2 0 1 8 .   [ 1 4 ]   R .   M .   A l - K h a t i b ,   T.   Z e r r o u k i ,   M .   M .   A b u   S h q u i e r ,   a n d   A .   B a l l a ,   Ta s h a p h y n e 0 . 4 :   a   n e w   a r a b i c   l i g h t   s t e m mer  b a se d   o n   r h y z o me   mo d e l i n g   a p p r o a c h ,   I n f o rm a t i o n   R e t ri e v a l   J o u rn a l ,   v o l .   2 6 ,   n o .   1 2 ,   p .   1 4 ,   D e c .   2 0 2 3 ,   d o i :   1 0 . 1 0 0 7 / s 1 0 7 9 1 - 023 - 0 9 4 2 9 - y.   [ 1 5 ]   A .   C h e l l i ,   A ssem’ s Ar a b i c   l i g h t   s t e m mer ( B E TA ) ,   a ra b i c s t e m m e r. c o m ,   h t t p s : / / a r a b i c st e mm e r . c o m (a c c e sse d   M a y   2 3 ,   2 0 2 4 ) .   [ 1 6 ]   K .   D a r w i sh ,   B u i l d i n g   a   sh a l l o w   A r a b i c   mo r p h o l o g i c a l   a n a l y z e r   i n   o n e   d a y ,   Pro c e e d i n g o f   t h e   An n u a l   Me e t i n g   o f   t h e   Asso c i a t i o n   f o r   C o m p u t a t i o n a l   L i n g u i st i c s ,   2 0 0 2 ,   d o i :   1 0 . 3 1 1 5 / 1 1 1 8 6 3 7 . 1 1 1 8 6 4 3 .   [ 1 7 ]   T.   B u c k w a l t e r ,   B u c k w a l t e r   A r a b i c   m o r p h o l o g i c a l   a n a l y z e r   v e r si o n   1 . 0 ,   L i n g u i s t i c   D a t a   C o n s o rt i u m ,   U n i v e r si t y   o f   Pe n n sy l v a n i a ,   L D C   C a t a l o g   N o . :   L D C 2 0 0 2 L 4 9 .   2 0 0 2 .   [ 1 8 ]   D .   G r a f f ,   M .   M a a m o u r i ,   B .   B o u z i r i ,   S .   K r o u n a ,   S .   K u l i c k ,   a n d   T .   B u c k w a l t e r ,   S t a n d a r d   A r a b i c   mo r p h o l o g i c a l   a n a l y z e r   ( S A M A )   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J E lec  &   C o m p   E n g     I SS N:   2088 - 8 7 0 8         A n   in n o va tive  A r a b ic  lig h t stemme r   d ev elo p ed   u s in g   a   h yb r id   a p p r o a ch   ( Dri s s   N a mly )   2363   v e r si o n   3 . 1 ,   L i n g u i st i c   D a t a   C o n s o rt i u m   L D C 2 0 0 9 E7 3 ,   p p .   5 3 5 6 ,   2 0 0 9 .   [ 1 9 ]   A .   B o u d l a l ,   A .   La k h o u a j a ,   A .   M a z r o u i ,   A .   M e z i a n e ,   M .   B e b a h ,   a n d   M .   S h o u l ,   A l k h a l i l   m o r p h o   s y s1 :   A   mo r p h o sy n t a c t i c   a n a l y si s   sy s t e m   f o r   A r a b i c   t e x t s ,   I n t e rn a t i o n a l   Ar a b   c o n f e re n c e   o n   i n f o rm a t i o n   t e c h n o l o g y ,   n o .   Ja n u a r y   2 0 1 0 ,   2 0 1 7 .   [ 2 0 ]   D .   N a m l y ,   K .   B o u z o u b a a ,   A .   El   Ji h a d ,   a n d   S .   L.   A o u r a g h ,   I mp r o v i n g   A r a b i c   l e mm a t i z a t i o n   t h r o u g h   a   l e m ma d a t a b a se   a n d   a   mac h i n e - l e a r n i n g   t e c h n i q u e ,   S t u d i e s   i n   C o m p u t a t i o n a l   I n t e l l i g e n c e ,   v o l .   8 7 4 ,   p p .   8 1 1 0 0 ,   2 0 2 0 ,   d o i :   1 0 . 1 0 0 7 / 9 7 8 - 3 - 030 - 3 4 6 1 4 - 0 _ 5 .   [ 2 1 ]   L.   Li u ,   Y . - C .   Li n ,   a n d   J.  R e i d ,   I mp r o v i n g   t h e   p e r f o r ma n c e   o f   t h e   LST M   a n d   H M M   m o d e l   v i a   h y b r i d i z a t i o n ,   a rX i v   p re p r i n t   a rXi v : 1 9 0 7 . 0 4 6 7 0 ,   2 0 1 9 .   [ 2 2 ]   D .   N a m l y ,   R .   T a j m o u t ,   K .   B o u z o u b a a ,   a n d   L .   A b o u e n o u r ,   N A F I S :   A   g o l d   s t a n d a r d   c o r p u f o r   A r a b i c   st e mm e r e v a l u a t i o n ,   i n   Pro c e e d i n g o f   t h e   2 8 t h   I n t e rn a t i o n a l   B u si n e ss  I n f o rm a t i o n   M a n a g e m e n t   Ass o c i a t i o n   C o n f e r e n c e   -   V i si o n   2 0 2 0 :   I n n o v a t i o n   Ma n a g e m e n t ,   D e v e l o p m e n t   S u st a i n a b i l i t y ,   a n d   C o m p e t i t i v e   Ec o n o m i c   G r o w t h ,   2 0 1 6 ,   p p .   1 8 6 8 1 8 7 7 .   [ 2 3 ]   I .   Ze r o u a l   a n d   A .   La k h o u a j a ,   A   n e w   Q u r a n i c   C o r p u r i c h   i n   m o r p h o sy n t a c t i c a l   i n f o r m a t i o n ,   I n t e rn a t i o n a l   J o u rn a l   o f   S p e e c h   T e c h n o l o g y ,   v o l .   1 9 ,   n o .   2 ,   p p .   3 3 9 3 4 6 ,   2 0 1 6 ,   d o i :   1 0 . 1 0 0 7 / s1 0 7 7 2 - 0 1 6 - 9 3 3 5 - 7.   [ 2 4 ]   l i n u x sc o u t Th e   g o l d e n   A r a b i c   c o r p u s ,   G i t H u b ,   A c c e ss e d :   M a y   2 3 ,   2 0 2 4 .   [ O n l i n e ] .   A v a i l a b l e :   h t t p s : / / g i t h u b . c o m/ i b n m a l i k / g o l d e n - c o r p u s - a r a b i c   [ 2 5 ]   H .   M u b a r a k ,   B u i l d   f a s t   a n d   a c c u r a t e   l e mm a t i z a t i o n   f o r   A r a b i c ,   i n   L RE C   2 0 1 8   -   1 1 t h   I n t e r n a t i o n a l   C o n f e r e n c e   o n   L a n g u a g e   Re so u r c e a n d   Ev a l u a t i o n ,   2 0 1 9 ,   p p .   1 1 2 8 1 1 3 2 .   [ 2 6 ]   M .   B o u d c h i c h e   a n d   A .   M a z r o u i ,   A   h y b r i d   a p p r o a c h   f o r   A r a b i c   l e mm a t i z a t i o n ,   I n t e r n a t i o n a l   J o u rn a l   o f   S p e e c h   T e c h n o l o g y   v o l .   2 2 ,   n o .   3 ,   p p .   5 6 3 5 7 3 ,   2 0 1 9 ,   d o i :   1 0 . 1 0 0 7 / s 1 0 7 7 2 - 0 1 8 - 9 5 2 8 - 3.   [ 2 7 ]   M .   N .   A l - K a b i ,   S .   A .   K a z a k z e h ,   B .   M .   A b u   A t a ,   S .   A .   A l - R a b a b a h ,   a n d   I .   M .   A l sma d i ,   A   n o v e l   r o o t   b a s e d   A r a b i c   s t e mm e r ,   J o u rn a l   o f   K i n g   S a u d   U n i v e rsi t y   -   C o m p u t e r   a n d   I n f o rm a t i o n   S c i e n c e s ,   v o l .   2 7 ,   n o .   2 ,   p p .   9 4 1 0 3 ,   2 0 1 5 ,   d o i :   1 0 . 1 0 1 6 / j . j k su c i . 2 0 1 4 . 0 4 . 0 0 1 .   [ 2 8 ]   N .   Th a l j i ,   N .   A .   H a n i n ,   S .   A l - H a k e e m,  W .   B .   H a n i ,   a n d   Z.   T h a l j i ,   A   n o v e l   r u l e - b a s e d   r o o t   e x t r a c t i o n   a l g o r i t h f o r   A r a b i c   l a n g u a g e ,   I n t e rn a t i o n a l   J o u r n a l   o f   Ad v a n c e d   C o m p u t e S c i e n c e   a n d   A p p l i c a t i o n s ,   v o l .   9 ,   n o .   1 0 ,   p p .   1 2 0 1 2 8 ,   2 0 1 8 ,   d o i :   1 0 . 1 4 5 6 9 / I JA C S A . 2 0 1 8 . 0 9 1 0 1 5 .   [ 2 9 ]   B .   A z m a n ,   R o o t   i d e n t i f i c a t i o n   t o o l   f o r   A r a b i c   v e r b s ,   I EE E   Ac c e s s ,   v o l .   7 ,   p p .   4 5 8 6 6 4 5 8 7 1 ,   2 0 1 9 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 1 9 . 2 9 0 8 1 7 7 .   [ 3 0 ]   K .   S h e r e e n ,   K h o j a   st e mm e r ,   Pa c i f i c   U n i v e rs i t y   O re g o n h t t p : / / z e u s.c s . p a c i f i c u . e d u / s h e r e e n / r e s e a r c h . h t m# s t e mm i n g   ( a c c e ss e d   M a y   2 3 ,   2 0 2 4 ) .       B I O G RAP H I E S O F   AUTH O RS       Dr iss  Na m ly           is  a n   a ss istan p ro fe ss o o Co m p u ter  S c ie n c e   a M o h a m m e d   V   Un iv e rsity   in   Ra b a t,   M o r o c c o .   P ro Na m ly   re c e iv e d   h is  P h . D.   d e g re e   in   Co m p u ter  S c ien c e   fro m   M o h a m m e d   Un iv e rsity   i n   2 0 2 0 .   His  re se a rc h   in tere sts  in c lu d e   a rti ficia in telli g e n c e ,   e sp e c ially   n a tu ra lan g u a g e   p r o c e ss in g .   He   c a n   b e   c o n tac ted   a e m a il d . n a m ly @u m 5 r. a c . m a .         K a r im   B o u z o u b a a           is  a   f u ll   p ro fe ss o o f   c o m p u ter  sc ien c e   i n   t h e   De p a rtme n o Co m p u ter  S c ien c e ,   M o h a m m a d i a   S c h o o o E n g i n e e rs,  M o h a m m e d   Un iv e rsity   i n   Ra b a t.   P ro f/Dr.   Ka rim  Bo u z o u b a a   re c e iv e d   h is  P h . D.   d e g re e   in   1 9 9 8   fro m   Lav a Un iv e rsit y .   His   re se a rc h   in tere sts  in c lu d e   a rti ficia in telli g e n c e ,   d a ta  sc ien c e ,   n a tu r a lan g u a g e   p ro c e ss in g ,   a n d   c o m p u tati o n a li n g u isti c s.  He   c a n   b e   c o n tac ted   a e m a il :   k a rim.b o u z o u b a a @e m i. a c . m a .       Evaluation Warning : The document was created with Spire.PDF for Python.