I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   7 ,   No .   6 Dec em b er   201 7 ,   p p .   3 7 0 5 ~ 3 7 1 1   I SS N:  2088 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v 7 i 6 . pp 3 7 0 5 - 3711     3705       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I JE C E   Ara bic Bo o k Re tr iev a l using  Clas s a nd Bo o k  Ind ex   Ba sed Ter m   Weig hting       M .   Ali F a uzi 1 Ag us   Z a i na l A rif in 2 Anny   Yu nia rt i 3   1 De p a rte m e n o f   Co m p u ter S c ien c e ,   Un iv e rsitas   Bra w ij a y a   2 ,3 De p a rtem e n o f   In f o r m a ti c s,  In stit u T e k n o lo g S e p u l u h   No p e m b e r       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   A p r   2 7 ,   2 0 1 7   R ev i s ed   Sep   8 ,   2 0 1 7   A cc ep ted   Sep   27 ,   2 0 1 7       On e   o f   th e   m o st co m m o n   issu e   in   in f o rm a ti o n   re tri e v a is  d o c u m e n ts  ra n k in g .   Do c u m e n ts  ra n k in g   s y ste m   c o ll e c ts  se a rc h   ter m f ro m   th e   u se a n d   o rd e rly   re tri e v e d o c u m e n ts  b a se d   o n   th e   re lev a n c e .   V e c to sp a c e   m o d e ls  b a se d   o n   T F . IDF  term   we ig h ti n g   is  th e   m o st  c o m m o n   m e th o d   f o th is  to p ic.  In   t h is  stu d y ,   w e   a re   c o n c e rn e d   w it h   th e   stu d y   o f   a u to m a ti c   r e tri e v a l   o f   Isl a m ic  Fi q h   (L a w b o o k   c o ll e c ti o n .   T h is  c o l l e c ti o n   c o n tain m a n y   b o o k s,  e a c h   o f   w h ich   h a s ten s to   h u n d re d o f   p a g e s.  Ea c h   p a g e   o f   th e   b o o k   is  trea ted   a s a d o c u m e n th a w il b e   ra n k e d   b a se d   o n   th e   u se q u e ry .   W e   d e v e lo p e d   c las s - b a se d   in d e x in g   m e th o d   c a ll e d   i n v e rse   c las f re q u e n c y   (ICF a n d   b o o k - b a se d   in d e x in g   m e th o d   in v e rse   b o o k   f re q u e n c y   (IBF f o th is  A ra b ic  in f o r m a ti o n   re tri e v a l.   T h o se   m e th o d   t h e n   b e e n   in c o r p o ra ted   w it h   t h e   p re v io u m e th o d   so   th a it   b e c o m e s   T F . IDF. ICF . IBF .   T h e   ter m   we ig h ti n g   m e th o d   a lso   u se d   f o r   f e a tu re   se lec ti o n   d u e   t o   h ig h   d im e n sio n a li ty   o f   th e   f e a tu re   sp a c e .   T h is  n o v e m e th o d   w a tes t e d   u sin g   a   d a tas e f ro m   1 3   A r a b ic  F iq h   e - b o o k s.  T h e   e x p e ri m e n tal  re su lt sh o w e d   th a th e   p ro p o se d   m e th o d   h a v e   th e   h ig h e st  p re c isio n ,   re c a ll ,   a n d   F - M e a su re   t h a n   t h e   o t h e th re e   m e th o d a v a riatio n o f   f e a tu re   se lec ti o n .   T h e   b e st  p e rf o rm a n c e   o f   th is  m e th o d   w a o b tain e d   w h e n   u sin g   b e st  1 0 0 0   f e a tu re b y   p re c i sio n   v a lu e   o f   7 6 % ,   re c a ll   v a lu e   o f   7 4 % ,   a n d   F - M e a su re   v a lu e   o f   7 5 % .   K ey w o r d :   I n f o r m a tio n   r etr iev a l   T er m   w e ig h ti n g   I B F   Do cu m e n r an k i n g   A r ab ic  b ook   Co p y rig h ©   2 0 1 7 I n stit u te o f   Ad v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   A li  Fau zi,     Dep ar te m en t o f   C o m p u ter   Sci en ce ,   Un i v er s ita s   B r a w ij a y a,   J l V eter an   6 2 1 0 2 ,   Ma lan g ,   I n d o n esia.   E m ail:  m o ch . ali. f a u zi@ u b . ac . i d       1.   I NT RO D UCT I O N   T h n u m b er   o f   A r ab ic  elec tr o n ic  d o cu m e n i s   in cr ea s i n g   d r asti ca ll y .   Ho w e v er ,   in f o r m ati o n   r etr iev al   ( I R )   r esear ch   co n d u cted   o n   A r ab ic  s till   m u c h   le s s   e x te n s i v th an   I R   r esear c h   o n   E n g l is h ,   d esp ite  th f ac t h a t   A r ab ic  i s   o n e   o f   th e   f iv e   o f f ic ial  an d   w o r k i n g   lan g u ag e s   o f   th U n ited   Natio n s ,   s p o k e n   b y   o v er   2 4 2   m illi o n   p eo p le,   an d ,   b ec au s it  is   th e   lan g u ag o f   th Q u r a n ,   th s ec o n d   lan g u a g o f   m a n y   M u s li m s   a n d   Mu s li m   co u n tr ies   ar o u n d   th e   w o r ld   [ 1 ,   2 ] .   T h o b j ec tiv o f   I R   is   f i n d in g   t h m o s t   r elev a n i n f o r m ati o n   i n   r esp ec to   u s er s   n ee d .   On o f   t h m o s co m m o n   is s u e s   in   i n f o r m atio n   r etr iev al  is   d o cu m e n ts   r a n k i n g   [ 3 ] .   Do cu m e n t s   r an k i n g   s y s te m   co llect s   s ea r ch   q u er y   f r o m   th u s er   an d   o r d er l y   r etr iev es  d o cu m en t s b ased   o n   th r elev a n ce   [ 4 ,   5,   6 ] .   Ma n y   r esear ch e s   ab o u t   A r ab ic  d o cu m e n t s   r an k in g   h av b ee n   co n d u cted   b ef o r e.   As  th o n e s   u s ed th e   v ec to r   s p ac m o d el  an d   co s in s i m i lar it y   to   i m p le m en t h ei r   p r o p o s ed   w o r k   [ 7 ,   8 ] .   So m e   o f   th o th er   w o r k s   u s ed   N - Gr a m   m a tch i n g   [ 9 ,   1 0 ] ,   d o cu m e n cr a w ler   m o d u le  w it h   co r r ec m o r p h o lo g ica m ea n in g   f ee d b ac k   [ 4 ] ,   an d   B o y er Mo o r e Ho r s p o o l b ased   s tr in g   m atc h in g   to   h a n d l o r th o g r ap h ic  v ar i at io n s   a n d   v o ca lizatio n   m ar k s   [ 1 1 ] .   Mo s o th er   r esear ch er s   m ai n l y   co n ce n tr ate  o n   b u i ld i n g   g o o d   A r ab ic  s te m m er s   [ 1 2 ,   13,   14,   1 5 ,   1 6 ,   17 ] ,   o n l y   f e w   o f   t h e m   co n ce n tr at o n   th ter m   w e ig h ti n g .     Fo r   g en er al  i n f o r m atio n   r etr ie v al   tas k ,   Salto n   an d   B u c k le y   [ 1 8 ]   f o u n d   th at  n o r m alize d   T F.I DF  is   t h e   Evaluation Warning : The document was created with Spire.PDF for Python.
      I SS N : 2088 - 8708   I J E C E   Vo l.  7 ,   No .   6 Dec em b er   201 7   :   3 7 0 5 3 7 1 0   3706   b est  d o cu m e n w ei g h ti n g   f u n ctio n .   T h er ef o r e,   th is   ter m   w e ig h tin g   b ec a m t h m o s p o p u lar   ter m   w ei g h ti n g   u s ed   in   A r ab ic  I R   s u c h   as  in   [ 7 ,   8,   1 9 ,   20,   21 ] .   T F.I DF  is   th p r o d u ct  o f   ter m   f r eq u en c y   ( T F)  an d   in v er s e   d o cu m en f r eq u e n c y   ( I DF) .   T m ea s u r es  th d en s it y   o f   ter m   in   d o cu m e n an d   I DF  e s t i m ate  t h r ar it y   o f   ter m   i n   t h w h o le  d o cu m e n co llectio n .   T F.I DF  w ei g h ti n g   th at  o n l y   b ased   o n   d o cu m e n t s   ar n o en o u g h   to   en h a n ce   d o cu m e n i n d ex i n g   p r o ce s s .   Gen er atin g   m o r in f o r m at iv ter m s   f o r   d o cu m e n t   in d ex   s h o u ld   also   co n s id er   th r ar it y   o f   t h ter m   i n   t h w h o le  cla s s e s .   T er m s   t h at  o cc u r s   i n   m an y   cla s s es  s h o u ld   n o b a n   i m p o r tan ter m   d esp ite  t h eir   h ig h   T F.I DF  s co r e.   T h er ef o r e,   R en   a n d   So h r ab   [ 2 2 ]   p r o p o s ed   n o v el  ter m   w ei g h ti n g   s ch e m f o r   au to m at ic  class i f icat io n   ta s k   u s i n g   t h e   co m b in atio n   o f   d o cu m e n t - b as ed   an d   class - b ased   ap p r o ac h es  ca lled   T F.I DF.I C an d   its   v ar iatio n s   T F.I DF.I C S δ F.  I n   t h is   s c h e m e,   t h i n v er s class   f r eq u e n c y   ( I C F)  an d   th in v er s clas s   s p ac d en s it y   f r eq u e n c y   ( I C S δ F) ,   is   in co r p o r ated .   T h ex p er im en tal  r esu l ts   s h o th at  th e   p r o p o s ed   class - i n d ex i n g - b ased   ter m   w eig h ti n g   ap p r o ac h es  o u tp er f o r m ed   T F.I DF  an d   t h o th er   f iv e   d if f er e n t te r m   w e ig h ti n g   ap p r o ac h es in   a u to m atic  clas s i f icat io n   tas k   [ 2 2 ].   I n   t h is   s t u d y ,   w h a v d e v el o p ed   class - b ased   in d e x in g   m eth o d   th a i n co r p o r ated   w it h   d o cu m en t - b ased   in d ex in g   m et h o d   f o r   Ar ab ic  in f o r m atio n   r etr iev a l.  S p ec if icall y ,   w e   ar co n ce r n ed   w it h   t h s t u d y   o f   au to m at ic  r etr ie v al  o f   I s la m i F iq h   ( L a w )   b o o k   co llec tio n .   T h is   co llectio n   co n tai n s   m an y   b o o k s ,   ea c h   o f   w h ic h   h as   te n s   to   h u n d r ed s   o f   p ag es.  E ac h   p ag o f   th b o o k   is   tr ea ted   as  d o cu m en t.  T h r etr iev al  s y s te m   w il r an k   t h b o o k   p ag es  b ased   o n   th eir   r elev an ce   to   th u s e r   s ea r ch   ter m .   T h is   w o r k   w as  i m p le m en ted   u s i n g   v ec to r   s p ac m o d el  ( VSM)   an d   co s in s i m ilar it y   b ased   o n   T F.I DF.I C ter m   w ei g h t in g .   I n   th is   w o r k ,   w al s o   p r o p o s n o v el  book - b ased   in d ex i n g   m e th o d .   T h is   m et h o d   is   th s e m a n tic  v er s io n   o f   I C ca lled   in v er s e   b o o k   f r eq u en c y   ( I B F) .   W h av clas s if ied   th b o o k   p ag es   u s i n g   s tati s tical  clas s i f ier   to   b u ild   th I C ter m   w ei g h ti n g .   T h er ef o r e,   w ca n   ca ll  th I C i s   u s i n g   s tat is tical   class e s   w h ile  t h I B is   u s in g   s e m a n tic  cla s s e s .   T h is   s e m a n tic  class   is   t h b o o k   titl e.   So m p ag es  ( d o cu m en ts )   th at  s h ar th s a m b o o k   titl ten d   to   h av e   s i m ilar   co n tex t.  T h au th o r   h a d m a n u all y   co llected   d o cu m e n ts   t h at  d is cu s s   th s a m to p ic  o r   is s u in   o n e   book .   N ea r ly   s i m ilar   to   th I C F,  I B co n s id er   th r ar it y   o f   t h ter m   in   t h w h o le  b o o k   co llectio n .   T er m s   th a t   o cc u r s   in   m an y   b o o k s   s h o u ld   n o b an   i m p o r tan ter m   d esp ite  th eir   h i g h   T F.I DF.I C s co r e.   T h I B w ill  b e   in co r p o r ated   w it h   p r ev i o u s   m eth o d   to   b T F.I DF.I C F.I B F.  T h ter m   w e ig h ti n g   m et h o d   a ls o   u s ed   f o r   f ea tu r s elec tio n   d u to   h ig h   d i m en s io n alit y   o f   t h f ea t u r s p ac e.       2.   T E RM   WE I G H T I N G   V ec to r   s p ac m o d el  is   co m m o n   m e th o d   u s ed   i n   I n f o r m atio n   R etr iev a s y s te m I n   v ec to r   s p ac m o d el,   ea c h   d o cu m en ts   i s   r ep r esen ted   in   m atr i x   t h at  co n tain s   it s ter m s   o r   w o r d s   w ei g h t.  T h w eig h t   ex p r ess ed   t h co n tr ib u tio n o f   a   w o r d   o r   ter m   to   t h e   d o cu m en t.  T h m ain   f u n ctio n   o f   ter m   w ei g h ti n g   s y s te m   is   th i m p r o v e m e n o f   r etr ie v a ef f ec tiv e n es s .   P r o p er   ter m   weig h tin g   ca n   g r ea tl y   i m p r o v t h p er f o r m an ce   o f   th v ec to r   s p ac m et h o d   [ 2 3 ,   2 4 ] .   T h er ar s o m p o p u lar   t er m   w ei g h t in g   m et h o d   s u c h   a s   T F,  T F.I DF  an d   T F.I DF.I C F.     2 . 1 .   T er m   F re qu e ncy   ( T F )   T er m   f r eq u en c y   is   th e   s i m p le s m et h o d   in   ass ig n i n g   w ei g h t s   to   ea c h   ter m .   E ac h   ter m   i s   a s s u m ed   to   h av co n tr ib u tio n   th a is   p r o p o r tio n al  to   th n u m b er   o f   i ts   o cc u r r en ce s   in   t h d o cu m e n t.  T h w ei g h ts   o f   ter m   t in   d o cu m e n t d   u s i n g   n o r m alize d   T F c an   b co u n ted   as   f o llo w s :     d t f d t TF , l o g 1 ) , (   ( 1 )     w h er d t f ,   is   t h n u m b er   o f   t h ter m   t o cc u r r en ce   i n   th d o cu m e n t d .     2 . 2 .   I nv er s Do cu m e nt  F re qu enc y   ( I DF )   W h en   th e   ter m   f r eq u en c y   ( T F)  is   b ased   o n t h ter m   o cc u r r en ce s   i n   a   d o cu m en t,  I DF   c o n s id er   t h d is tr ib u tio n   o f   t h ter m   in   t h co r p u s Un lik T w h ic h   is   lo ca w eig h ti n g   m et h o d ,   I DF  is   g lo b al  o n e.   T h b ac k g r o u n d   o f   th is   w eig h ti n g   is   r ar ter m   i n   th e   co r p u s   i s   v er y   v al u ab le.   T h v alu e   o f   ea ch   ter m   i s   a s s u m ed   to   h as   th o p p o s ite  p r o p o r tio n   to   th n u m b er   o f   d o cu m e n ts   i n   th co r p u s   th at   co n tai n   th t er m . T h w eig h t s   o f   ter m   t u s in g   n o r m alize d   I DF   c an   b co u n ted   as  f o llo w s :     t d df N t I D F l o g 1 ) (   ( 2 )   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E   I SS N:  2088 - 8708       A r a b ic  B o o R etri ev a l u s in g   C la s s   a n d   B o o k   I n d ex   B a s ed   Te r W eig h tin g   ( M A li F a u z i )   3707   w h er d N   is   t h n u m b er   o f   d o cu m e n t s   i n   co r p u s   an d   t df   is   t h n u m b er   o f   d o cu m en ts   in   c o r p u s   th a co n tain s   ter m   t.     2 . 3 .   I nv er s Cla s s   F re qu ency   ( I C F )   I C is   g lo b al  w ei g h tin g   m eth o d   lik I DF.  W h e n   th I D co n s id er   th d is tr ib u tio n   o f   th ter m   ap p ea r ea n ce   ac r o s s   th d o cu m en ts   i n co r p u s ,   th I C p a y   att en tio n   to   th d is tr ib u tio n   o f   th ter m   ap p ea r ea n ce   ac r o s s   ca teg o r ies   cla s s e s .   T h r ar ter m ,   t h ter m   t h at  o n l y   ap p ea r s   in   a   ce r tain   clas s ,   h a v t h h i g h er   v al u e   th at  th e   f r eq u e n t   o n e .   T h v al u e   o f   ea c h   ter m   i s   a s s u m ed   t o   h av e   t h o p p o s i te  p r o p o r tio n   to   t h e   n u m b er   o f   class es t h at  co n tain   t h ter m .   T h w eig h t s   o f   ter m   u s in g   n o r m alize d   I C F c a n   b co u n ted   a s   f o llo w s :     t c cf N t I C F l o g 1 ) (   ( 3 )     w h er c N   is   t h n u m b er   o f   cla s s e s   an d   t cf   is   t h n u m b er   o f cla s s e s   th at  co n tai n s   ter m   t.     2 . 4 .   I nv er s B o o k   F re qu e ncy   ( I B F )     I B is   n o v el  ter m   w ei g h ti n g   m et h o d   th at  w p r o p o s ed   in   th is   p ap er .   Me an w h ile  I C F   p ay   atte n tio n   to   th d is tr ib u tio n   o f   t h ter m   ap p ea r ea n ce   ac cr o s s   class e s ,   t h I B co n s id er   t h e   d is tr ib u ti o n   o f   t h ter m   o n   a   co llectio n   o f   b o o k s .   T er m   t h at  o n l y   ap p ea r s   in   ce r ati n   b o o k   an d   r ar el y   ap p ea r s   i n   o t h er   b o o k s   is   v er y   v alu ab le   ter m .   T h v al u e   o f   ea ch   ter m   i s   as s u m ed   to   h a v t h o p p o s ite  p r o p o r tio n   to   th e   n u m b er   o f   b o o k s   th a t   co n tain   t h ter m .   T h w ei g h t s   o f   ter m   t u s i n g   n o r m alize d   I B F c an   b co u n ted   as  f o llo w s :     t b bf N t I B F l o g 1 ) (   ( 4 )     w h er b N   is   t h n u m b er   o f   b o o k s   an d   t bf   is   th n u m b er   o f b o o k s   t h at  co n tain s   ter m   t.     2 . 5 .   T F . I DF . I CF . I B F   T F.I DF.I C F.I B is   m u ltip li ca tio n   o f   T F,  I DF,  I C F   a n d   I B F.  T h w ei g h co m b in at io n   o f   ter m   i n   d o cu m en t d   ca n   b co u n ted   as  f o llo w s :     ) ( ) ( ) ( ) , ( ) , ( t I B F t I C F t I D F d t TF d t I B F I C F I D F TF   ( 5 )     w h er ) , ( d t TF   is   th T v alu o f     ter m   in   d o cu m en d ,   ) ( t I D F   is   th I D v al u o f   ter m   t,  ) ( t I C F   is   th I C v al u o f   ter m   t a n d   ) ( t I B F   is   th I B F v al u o f   ter m   t.       3.   CO SI N E   SI M I L AR I T Y   C o s i n s i m ilar it y   is   s i m ilar i t y   m ea s u r e m en t   m et h o d   b et w ee n   t w o   d if f er en t   te x ts   o r   d o cu m e n t s   by   m ea s u r in g   th co s in e   o f   t h a n g le   b et w ee n   th e   d o cu m e n r e p r esen tatio n   v ec to r s   [ 2 5 ] Firs t,  w e   n ee d   to   b u ild   v ec to r   r ep r esen tatio n   o f   ea ch   d o cu m en ts   u s i n g   ter m s   w ei g h tin g   v al u e i n   ea ch   d o cu m e n t .   T h is   r ep r esen tatio n   in   ca r tesi a n   f ield   is   s h o w n   i n   Fig u r 1 .   In   Fig u r 1   th er ar th r ee   d o cu m e n t s   t h at  b ee n   r e p r esen ted   b y   v ec to r s   d 1 ,   d 2   an d   d 3   r esp ec tiv el y   a n d   o n q u er y   th a t b ee n   r ep r esen t ed   b y   v ec to r   q .     C o s i n s i m i lar it y   ca lcu la tes  th co s i n v al u o f   t h e   a n g el  θ   b et w ee n   q u er y   an d   ea c h   o f   th r e e   d o cu m en ts .   T h is   v al u i n d icat es  th e   d eg r ee   o f   s i m ilar it y   o f   e ac h   d o cu m en t   an d   t h q u er y .   Sin ce   i is   b ased   o n   th co s in e   o f   th e   an g le   b et w e en   t w o   v ec to r s ,   th e   v alu e   r an g es   f r o m   0   to   1 . T h g r ea t er   t h co s i n v al u e,   t h e   m o r e   th e   s i m ilar it y   b et w ee n   t h e   q u er y   a n d   t h d o cu m en t .   T h co s i n v al u 1   s tates  th e 1 0 0 s i m ilar it y ,   w h ile  th co s in v a lu 0   m ea n s   1 0 0 n o ts i m ilar .   T h C o s in s i m i lar it y   o f   q u er y   q   an d   d o cu m en d j   ca n   b e   co u n ted   as f o llo w s :     , ) ( ) ( ) , ( ) , ( ) , c o s ( 2 2 j t j k k j d W e i g h t q W e i g h t d t W e i g h t q t W e i g h t d q k   ( 6 )   Evaluation Warning : The document was created with Spire.PDF for Python.
      I SS N : 2088 - 8708   I J E C E   Vo l.  7 ,   No .   6 Dec em b er   201 7   :   3 7 0 5 3 7 1 0   3708   w h er ) , c o s ( j d q   is   th e   co s i n v al u b et w ee n   q u er y q   an d   d o cu m e n j d ) , ( q t W e i g h t k ) , ( j k d t W e i g h t ar e   w ei g h ted   w o r d s   k t   tk   o n   q u er y   q   an d   d o cu m en j d   r esp ec tiv el y   Me a n   w h ile   2 ) ( q W e i ght   a n d   2 ) ( j d W e i g h t   is   th len g th   o f   t h q u er y   v e cto r q   an d   d o cu m e n t   v ec to r j d r esp ec tiv el y Fo r   th w ei g h t   w ca n   u s an y   ter m   w ei g h ti n g   m et h o d s   s u c h   as T F,  T F.I DF,  T F.I DF.I C F,  o r   T F. I DF.I C F.I B F.           Fig u r 1 .   C o s in s i m ilar it y   r ep r esen tatio n       4.   RE S E ARCH   M E T H O D   B r o ad ly   s p ea k i n g ,   th i n f o r m atio n   r etr ie v al  s y s te m in   t h i s   s t u d y   co n s is t s   o f   t h r ee   m ain   s ta g es ,   p r ep r o ce s s in g ,   f ea t u r es  s elec t io n   a n d   d o cu m e n t   r an k i n g   b ased   o n   t h q u er y   f r o m   u s er .   I n   t h f ir s s tag e,   p r ep r o ce s s in g ,   t h er ar s ev er al  s tep s   in cl u d i n g   to k e n iz atio n ,   s to p w o r d s   r e m o v al,   s t e m m in g   an d   ter m   w ei g h t i n g   ca lc u latio n   u s i n g   T F.I DF.I C F.I B F .   T h u n iq u ter m s   f r o m   t h is   s tag w o u ld   b th o r ig in al  f ea tu r e s   o f   ea ch   d o cu m e n ts .   T h r o u g h   th f ea tu r s elec tio n   s ta g e ,   s o m o f   th b est  f ea t u r es w er s elec ted   f r o m   th e   o r ig in al  f ea tu r s et . T h s elec t io n   m et h o d   in   th is   s t u d y   i s   b ased   o n   th T F.I DF.I C F.I B F   v alu e   o f   ea c h   ter m Af ter   t h b es f ea tu r e s   s elec ted ,   d o cu m en r an k i n g   s ta g e   w a s   co n d u cted b y   m ea s u r i n g   co s i n e   s i m ilar it y   b et w ee n   d o cu m e n v ec to r   an d   q u er y   v ec to r   b ased   o n   T F.I D F.I C F.I B ter m   w ei g h ti n g   v al u e A f ter   th at,   t h e   d o cu m en ts   w ill  b s o r ted   d escen d in g l y   ac co r d in g   to   th eir   co s in s i m ilar it y   v al u e.   T h is   r an k i n g   s h o w s   t h e   d o cu m en t r an k in g   r es u lts   ac co r d in g   to   th le v el  o f   s i m ilar it y   to   th u s er   q u er y .       5.   RE SU L T A ND  AN AL Y SI S   Data s et  t h at  h av e   b ee n   u s ed   i n   t h is   e x p er i m e n is   a n   A r ab i co r p u s   w h ic h   i s   ta k en   f r o m   1 3   e - b o o k s   in   Ma kta b a h   S ya mila h   ap p lica tio n .   Si n ce   e v er y   p a g es  o f   t h b o o k s   w a s   tr ea ted   as   d o cu m en t,  w h a v 6 9 9 6   d o cu m en ts   d is tr ib u ted   in   5   ca t eg o r ies.  Fro m   t h w h o le  d o cu m en ts ,   t h er ar 4 7 . 4 4 7   d is tin c t te r m s .   T h ex p er i m en w a s   co n d u c t ed   u s in g   7   q u er ies.  E ac h   o f   th q u er ies  h as  m o r th a n   o n r elev an t   d o cu m en t.  T h e x p er i m e n was  also   co n d u cted   u s in g   f ea t u r s elec tio n   th a v ar ies  f r o m   2 5 0   to   1 0 0 0   b est   f ea t u r es.  T h Gr o u n d   T r u th   d ata  th at  b ee n   u s ed   i n   th i s   ex p er i m en w er o b tain ed   f r o m   a n   ex p er t.  T h d ata   co n tain   s o m q u er ies  an d   th co r r esp o n d in g   r elev a n d o cu m en ts ,   o r   tech n ical l y   t h p ag es  o f   p ar ticu lar   b o o k s ,   f o r   ea ch   o f   t h e m .     I n   th i s   ex p er i m en t,  p r ec is io n ,   r ec all  an d   F - Me a s u r o f   T F.I DF.I C F.I B m e th o d   w as  m ea s u r ed .   T h e   ex p er i m e n r esu lt  o f   th p r o p o s ed   m et h o d   th en   b co m p ar ed   to   s o m p r ev io u s   ter m   w ei g h ti n g   m et h o d s   in cl u d in g   T F.I DF  a n d   T F.I DF.I C F.  T h e x p er i m e n t   w ill   a ls o   b co n d u cted   u s i n g   an o t h er   v ar iatio n   o f   b o o k   b ased   in d ex ed   ter m   w ei g h ti n g   ca lled   T F.I DF.I B F.  T h ter m   w eig h ti n g   m et h o d s   w er n o o n l y   u s ed   d u r i n g   co s in s i m ilar i t y   co m p u tatio n ,   b u t a ls o   u s ed   f o r   f ea tu r s e lec tio n .       Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E   I SS N:  2088 - 8708       A r a b ic  B o o R etri ev a l u s in g   C la s s   a n d   B o o k   I n d ex   B a s ed   Te r W eig h tin g   ( M A li F a u z i )   3709   T ab le  1 .   T h P e r f o r m a n ce   o f     th S y s te m   U s in g   1 0 0 0   Featu r es C o m p ar ed   w ith   P r ev io u s   M eth o d s     P r e v i o u s M e t h o d s   P r o p o se d   M e t h o d s   T e r W e i g h t i n g   TF .   I D F   TF . I D F .   I C F   TF . I D F .   I B F   TF . I D F .   I C F . I B F   P   R   P   R   P   R   P   R   Q1   1 . 0 0   1 . 0 0   0 . 5 0   0 . 5 0   1 . 0 0   1 . 0 0   1 . 0 0   1 . 0 0   Q2   0 . 5 0   0 . 2 5   0 . 5 0   0 . 2 5   0 . 5 0   0 . 2 5   0 . 7 5   0 . 7 5   Q3   0 . 7 5   0 . 7 5   0 . 7 5   0 . 7 5   0 . 7 5   0 . 7 5   0 . 7 5   0 . 7 5   Q4   0 . 1 0   0 . 3 3   0 . 1 7   0 . 3 3   0 . 1 7   0 . 3 3   0 . 2 9   0 . 6 7   Q5   1 . 0 0   0 . 5 0   1 . 0 0   0 . 5 0   1 . 0 0   0 . 5 0   1 . 0 0   0 . 5 0   Q6   0 . 3 3   0 . 5 0   0 . 3 3   0 . 5 0   0 . 3 3   0 . 5 0   0 . 5 0   0 . 5 0   Q7   1 . 0 0   1 . 0 0   1 . 0 0   1 . 0 0   1 . 0 0   1 . 0 0   1 . 0 0   1 . 0 0   M e a n   6 7 %   6 2 %   6 1 %   5 5 %   6 8 %   6 2 %   76%   74%   F1 - M e a su r e   6 4 %   5 8 %   6 5 %   75%       T ab le  2 .   T h P e r f o r m a n ce   o f     th S y s te m   U s in g   5 0 0   Featu r e s   C o m p ar ed   w ith   P r ev io u s   Me th o d s     P r e v i o u s M e t h o d s   P r o p o se d   M e t h o d s   T e r W e i g h t i n g   TF .   I D F   TF . I D F .   I C F   TF . I D F .   I B F   TF . I D F .   I C F . I B F   P   R   P   R   P   R   P   R   M e a n   5 6 %   5 8 %   5 9 %   5 8 %   6 0 %   5 8 %   6 6 %   6 5 %   F1 - M e a su r e   5 7 %   5 8 %   5 9 %   66%       T ab le  3 .   T h P e r f o r m a n ce   o f     th S y s te m   U s in g   2 5 0   Featu r e s   C o m p ar ed   w ith   P r ev io u s   Me th o d s     P r e v i o u M e t h o d s   P r o p o se d   M e t h o d s   T e r W e i g h t i n g   TF .   I D F   TF . I D F .   I C F   TF . I D F .   I B F   TF . I D F .   I C F . I B F   P   R   P   R   P   R   P   R   M e a n   5 6 %   5 8 %   5 9 %   5 8 %   6 0 %   5 8 %   6 6 %   6 5 %   F1 - M e a su r e   5 7 %   5 8 %   5 9 %   66%       T h co m p ar is o n   r es u lts   o f   t h e   m et h o d s   u s i n g   1 0 0 0   b est  f ea t u r es,  5 0 0   f ea t u r es  a n d   2 5 0   f ea tu r es  ca n   b s ee n   at  T ab le  1 ,   T ab le  2   an d   T ab le  3   r esp ec tiv el y .   T h r esu lts   s h o w ed   th at  t h e   p r o p o s ed   m et h o d ,   T F.I DF.I C F.I B ter m   w e ig h t in g   m e th o d   h a v t h h ig h es t   p r ec is io n ,   r ec all,   an d   F - Me a s u r t h an   th o t h er   th r ee   m et h o d s   at  v ar iatio n s   o f   f ea t u r s elec t io n .   T h b est  p er f o r m a n ce   o f   t h i s   m eth o d   w a s   o b tain ed   w h e n   u s i n g   b est  1 0 0 0   f ea tu r es  b y   p r ec is io n   v al u o f   7 6 %,  r ec all  v alu o f   7 4 %,  an d   F - Me as u r v alu o f   7 5 %.  T h is   m et h o d   is   ab le  to   s ea r ch   f o r   r elev an d o cu m e n t s   b y   co n s id er in g   n o o n l y   t h d o cu m e n t s   i n d ex ,   b u al s o   th e   b o o k s   an d   cla s s e s   i n d ex .   T h er ef o r e,   th i s   m et h o d   ca n   o b tai n   t h r ele v an t   d o cu m en t s   f r o m   th ap p r o p r iate  b o o k   an d   ca teg o r y   b ased   o n   th t h ch ar ac ter is tic s   o f   t h q u er y   e n t er ed   s o   th at  th r esu lt b ec a m m o r ac c u r ate.   Me an w h ile,   t h T F . I DF.I B m et h o d   to o k   s ec o n d   p lace   with   t h b est   p er f o r m a n ce   w as   o b tain ed   w h e n   u s i n g   th 1 0 0 0 's  b est  f e atu r es  b y   p r ec is io n   v al u o f   6 8 %,  r ec all  v al u o f   6 2 %,  a n d   F - Me a s u r v al u o f   6 5 %.  T h co m m o n   ter m   w ei g h ti n g   m eth o d ,   T F.I DF,  en co u n ter   s ig n if ican lo s s   in   p er f o r m an ce   w h en   u s i n g   f e w er   f ea t u r es.  T h is   r es u lts   s h o w ed   t h at  th e   T F.I DF  m e th o d   h a s   lo s t   lo o f   i m p o r ta n f e atu r es  w h e n   o n l y   a   s m al n u m b er   o f   f ea t u r es  u s e d .   T h r esu lts   a ls o   d ep icted   t h at  t h T F.I DF.I B ( w i th o u I C F)  m eth o d   h ig h er   p r ec is io n   a n d   r ec all  v al u co m p ar ed   w i th   T FID an d   T F.I DF.I C F.  T h is   s h o w s   th a t h a d d itio n   o f   I B h a s   a   b etter   im p ac t h an   I C F.  T h b est  r esu lt s   o f   th i s   m et h o d   w a s   o b tain ed   w h en   u s i n g   1 0 0 0 ' s   b est  f ea t u r b y   p r ec is io n   v al u o f   6 8 %,  r ec all  v alu o f   6 2 %,  an d   F - Me a s u r v alu o f   6 5 %.   I n   ad d itio n ,   f r o m   T ab le  1 ,   2 ,   an d   3   ca n   also   b s ee n   t h at   th f ea t u r es  r ed u ct io n   al s o   af f ec t h e   p er f o r m a n ce   o f   ea c h   m et h o d s .   T h f e w er   f ea t u r es  u s ed ,   th l o w er   p er f o r m a n ce   o b tain ed .   T F.I DF  h a v v er y   s ig n i f ica n d ec r ea s in   p er f o r m an ce   a s   th n u m b er   o f   f ea t u r es  r ed u ce d .   T h is   is   b ec au s e   lo o f   im p o r tan t   f ea t u r es  w er lo s d u r in g   th r ed u ctio n .   So m i m p o r ta n f e atu r es  h ad   lo s b ec au s t h e y   h av s m al T F.I DF  v alu th a n   s o m o f   t h o th er   f ea t u r es  th a s h o u ld   b eli m in ated .   Un lik T F.I DF,  T F.I DF.I C F. I B s till   h as  a   p r etty   g o o d   p er f o r m an ce   e v e n   t h o u g h   u s e   litt le  n u m b er   o f   f ea t u r es  b ec a u s t h i s   m e th o d   ca n   k ee p   th e   f ea t u r es th a t h a v i m p o r tan t r o les.       6.   CO NCLU SI O N   T F.I DF.I C F.I B F   ter m   w ei g h ti n g   m e th o d   ca n   b ap p lied   to   th r etr ie v al  o f   A r ab ic  d o cu m en ts   t h at   h av e   h ier ar ch y   o f   b o o k s   w it h   m a n y   p ag es.   T h ex p er i m en t   r esu lts   s h o w ed   th a t h is   m et h o d   h a s   t h h i g h e s t   p r ec is io n ,   r ec all  a n d   F - Me as u r v a lu e   co m p ar ed   w it h   o t h er   ter m   w ei g h ti n g   m e th o d s   in cl u d in g   T F.I DF,  T F.I DF.I C F,  an d   T F.I DF.I B F .   T h av er ag v al u e   o f   F - Me as u r e   u s i n g   th i s   m et h o d   is   7 5 %,   w h ile  t h av er a g e   Evaluation Warning : The document was created with Spire.PDF for Python.
      I SS N : 2088 - 8708   I J E C E   Vo l.  7 ,   No .   6 Dec em b er   201 7   :   3 7 0 5 3 7 1 0   3710   v alu e   o f   p r ec is io n   is   7 6 %   an d   t h a v er ag e   v al u o f   r ec all  r ea ch es  7 4 % .   Us in g   f ea tu r s elec tio n ,   T F.I DF.I C F.I B F   m eth o d   s t ill   h as   p r ett y   g o o d   p er f o r m a n ce ev e n   t h o u g h   l ittl n u m b er   o f   f ea t u r e s u s ed   b ec au s t h is   m et h o d   ca n   k ee p   th f ea tu r e s   t h at  h a v i m p o r tan r o les.   T h is   m et h o d   o b tain ed   t h e   b est  v alu e   w h e n   u s in g   1 0 0 0 ' s   b est  f ea t u r b y   p r ec is io n   v a lu o f   7 6 %,  r ec all   v alu e   o f   7 4 %,  an d   th F - Me a s u r e   v alu o f   7 5 %.   A s   th i s   ter m   w ei g h tin g   m et h o d   h ad   s u cc ess f u l ly   u s ed   in   f ea tu r s elec tio n   an d   d o cu m en r an k i n g   s y s te m   f o r   d o cu m e n ts   t h at   h av h ie r ar ch y   o f   b o o k s   w i th   m a n y   p a g es i n   f u t u r s t u d ies,  t h is   m et h o d   ca n   b ap p lied   to   th class i f ica tio n   o f   d o cu m e n ts   w i th   t h s a m h ier ar ch y .       RE F E R E NC E S   [1 ]   Bru n n e r,   B .   " T h e   T i m e   A l m a n a c   2 0 0 0   (Bo st o n ,   M A In f o rm a ti o n   P lea se   LL C,   1 9 9 9 ) " .   I n   Ch ief,   T ime   Al ma n a c ( 2 0 0 5 ).   [2 ]   L e w is,   M .   P a u l,   G a r y   F .   S im o n s,  a n d   C h a rles   D.  F e n n ig .   Et h n o lo g u e L a n g u a g e o f   th e   w o rld .   V o l .   1 6 .   Da ll a s,  T X :   S IL   in tern a ti o n a l,   2 0 0 9 .   [3 ]   Lw in   P H.  Qu e ry   De p e n d e n Ra n k in g   f o In f o r m a ti o n   Re tri e v a B a se d   o n   Qu e r y   Clu ste rin g .   In ter n a ti o n a J o u rn a l   o In fo rm a t ics   a n d   C o mm u n ic a ti o n   T e c h n o l o g y   ( IJ - ICT ).   2 0 1 2   No v   1 7 ;   2 ( 1 ):2 5 - 3 0 .   [4 ]   El ra o u f ,   Esra a   A b d ,   Na g w a   L o tfy   Ba d r,   a n d   M o h a m e d   F a h m y   T o l b a .   " A n   Eff ici e n Ra n k in g   M o d u l e   f o a n   A r a b ic   S e a rc h   En g in e . "   IJ CS NS   1 0 . 2   (2 0 1 0 ):  2 1 8 .   [5 ]   M a n n i n g ,   Ch rist o p h e D.,   P ra b h a k a Ra g h a v a n ,   a n d   Hin ric h   S c h ü t z e .   In tro d u c ti o n   t o   i n fo rm a ti o n   re triev a l .   Vo l.   1 .   No .   1 .   Ca m b rid g e Ca m b rid g e   u n iv e rsit y   p re ss ,   2 0 0 8 .   [6 ]   En ik u o m e h in   T ,   S a d ik u   JS.   T e x W ra p p in g   A p p ro a c h   t o   n a t u ra L a n g u a g e   In f o r m a ti o n   re tri e v a u sin g   sig n if ica n In d ica to r .   IA ES   In tern a ti o n a J o u rn a o f   A rti f i c ial  In telli g e n c e .   2 0 1 3   S e p   1 ; 2 (3 ): 1 3 6 .   [7 ]   El   Em a r y ,   I. ,   a n d   Ja a f a   A t w a n .   " De sig n in g   a n d   B u il d in g   a n   A u to m a ti c   In f o rm a ti o n   Re tri e v a S y st e m   f o Ha n d li n g   th e   A ra b ic Da ta."   Ame ri c a n   J o u r n a o A p p li e d   S c ien c e s   2 . 1 1   ( 2 0 0 5 ):  1 5 2 0 - 1 5 2 5 .   [8 ]   Ha rra g ,   F o u z i,   A b o u b e k e u Ha m d i - Ch e rif ,   a n d   Ey a El - Qa wa s m e h .   " V e c to sp a c e   m o d e f o A r a b ic  in f o rm a ti o n   re tri e v a l a p p li c a ti o n   to   Ha d it h   in d e x in g . "   Ap p li c a t io n o Dig it a In f o rm a ti o n   a n d   W e b   T e c h n o lo g ies ,   2 0 0 8 .   ICADIW T   2 0 0 8 .   Fi rs In ter n a ti o n a Co n fer e n c e   o n   th e .   IEE E,   2 0 0 8 .   [9 ]   M u sta f a ,   S u leim a n   H.  " Ch a ra c ter  c o n ti g u i ty   in   N - g ra m - b a se d   w o rd   m a tch in g th e   c a se   f o A ra b ic  tex se a rc h in g . "   In fo rm a ti o n   p ro c e ss in g   &   ma n a g e me n t   4 1 . 4   (2 0 0 5 ):  8 1 9 - 8 2 7 .   [1 0 ]   M a y f i e ld ,   Ja m e s,  e a l.   " JH U/ AP L   a T REC  2 0 0 1 Ex p e rim e n ts  in   F il terin g   a n d   in   A ra b ic,  Vid e o ,   a n d   W e b   Re tri e v a l. "   T RE C .   2 0 0 1 .   [1 1 ]   M u sta f a ,   S u leim a n   Hu ss e in .   " A r a b ic  strin g   se a rc h in g   i n   t h e   c o n t e x o f   c h a ra c ter  c o d e   sta n d a rd a n d   o rt h o g ra p h ic   v a riatio n s."   Co mp u ter   sta n d a r d &   in ter fa c e s   2 0 . 1   ( 1 9 9 8 ) 3 1 - 5 1 .   [1 2 ]   L a r k e y ,   L e a h   S . ,   L isa   Ba ll e ste ro s,  a n d   M a rg a re E.   Co n n e ll .   " L ig h ste m m in g   f o A ra b ic  in f o rm a ti o n   re tri e v a l. "   Ara b ic co mp u t a ti o n a mo rp h o lo g y .   S p rin g e Ne th e rlan d s,  2 0 0 7 .   2 2 1 - 2 4 3 .   [1 3 ]   Ch e n ,   A it a o ,   a n d   F re d ric C.   G e y .   " Bu il d in g   a n   A ra b ic S tem m e f o In f o rm a ti o n   Re tri e v a l. "   T RE C .   Vo l.   2 0 0 2 .   2 0 0 2 .   [1 4 ]   T a g h v a ,   Ka z e m ,   Ra n ia  El k h o u ry ,   a n d   Je ff re y   Co o m b s.  " A ra b ic  st e m m in g   w it h o u t   a   ro o t   d icti o n a r y . "   In fo rm a ti o n   T e c h n o l o g y C o d i n g   a n d   C o mp u t i n g ,   2 0 0 5 .   IT CC  2 0 0 5 .   In ter n a ti o n a Co n fer e n c e   o n .   V o l .   1 .   IEE E ,   2 0 0 5 .   [1 5 ]   L a r k e y ,   L e a h   S . ,   L isa   Ba ll e ste ro s,  a n d   M a rg a re E.   Co n n e ll .   " Im p ro v in g   ste m m in g   f o A ra b ic  in f o r m a ti o n   re tri e v a l:   li g h ste m m in g   a n d   c o - o c c u rre n c e   a n a l y sis."   Pro c e e d in g o t h e   2 5 th   a n n u a i n ter n a t io n a ACM   S I GIR  c o n fer e n c e   o n   Res e a rc h   a n d   d e v e lo p me n in   i n fo rm a t io n   re triev a l .   A CM ,   2 0 0 2 .   [1 6 ]   A b u - S a le m ,   Ha n i,   M a h m o u d   A l - O m a ri,   a n d   M a rth a   W .   Ev e n s.  " S tem m in g   m e th o d o l o g ies   o v e in d iv id u a q u e ry   w o rd f o a n   A ra b ic  in f o r m a ti o n   re tri e v a s y st e m . "   J o u rn a o f   th e   Asso c ia ti o n   fo In f o rm a ti o n   S c ien c e   a n d   T e c h n o l o g y   5 0 . 6   ( 1 9 9 9 ):   5 2 4 .   [1 7 ]   Ka d ri,   Yo u ss e f ,   a n d   Jia n - Yu n   Nie .   " Eff e c ti v e   ste m m in g   f o Ara b ic  in f o rm a ti o n   re tri e v a l. "   p ro c e e d in g o t h e   Ch a ll e n g e   o Ara b ic f o r NL P/ M T   Co n fer e n c e ,   L o n d re s,  Ro y a u me - Un i .   2 0 0 6 .   [1 8 ]   S a lt o n   G ,   Bu c k le y   C.   Ter m - w e i g h ti n g   a p p ro a c h e in   a u to m a ti c   te x re tri e v a l.   In f o r m a ti o n   p ro c e ss in g   &   m a n a g e m e n t.   1 9 8 8   Ja n   1 ; 2 4 ( 5 ): 5 1 3 - 23.   [1 9 ]   Al - T a a n i,   A h m a d   T . ,   A h m e d   S .   G h o ra b ,   a n d   Ha z e m   M .   A l - Na j jar.  " A n   A ra b ic - En g li sh   In d e x in g   S y ste m   u sin g   In v e rted   In d e x   A lg o rit h m ."   [2 0 ]   Ha rra g ,   F o u z i,   e a l.   " Ex p e ri m e n ts  in   im p ro v e m e n o f   A r a b ic  in f o rm a ti o n   re tri e v a l. "   3 rd   In ter n a ti o n a Co n fer e n c e   o n   Ar a b ic  L a n g u a g e   Pro c e ss in g   ( CIT AL A),   Ra b a t ,   M o ro c c o .   2 0 0 9 .   [2 1 ]   Err it a li   M .   In f o rm a ti o n   Re tri e v a l:   T e x tu a In d e x in g   Us in g   a n   O rien ted   Ob jec Da tab a se .   In d o n e sia n   Jo u rn a o f   El e c tri c a En g in e e rin g   a n d   Co m p u ter S c ien c e .   2 0 1 6   A p 1 ; 2 (1 ) :2 0 5 - 1 4 .   [2 2 ]   Re n ,   F u ji ,   a n d   M o h a m m a d   G o la m   S o h ra b .   " Clas s - in d e x in g - b a se d   term   we ig h ti n g   f o a u to m a ti c   tex c las si f ica ti o n . "   In fo rm a ti o n   S c ien c e s   2 3 6   ( 2 0 1 3 ):   1 0 9 - 1 2 5 .   [2 3 ]   S a lt o n ,   G e ra rd ,   A n it a   W o n g ,   a n d   C h u n g - S h u   Ya n g .   " A   v e c to sp a c e   m o d e f o a u to m a ti c   in d e x in g . "   Co mm u n ica ti o n s   o th e   ACM   1 8 . 1 1   (1 9 7 5 ):  6 1 3 - 6 2 0 .   [2 4 ]   Ch ish o lm ,   Eri c a ,   a n d   T a m a ra   G .   Ko ld a .   " Ne ter m   we ig h ti n g   f o r m u las   f o th e   v e c to sp a c e   m e th o d   in   i n f o rm a ti o n   re tri e v a l. "   Co mp u ter   S c ien c e   a n d   M a th e ma ti c s Div isio n ,   Oa k   Ri d g e   Na ti o n a L a b o ra t o ry   (1 9 9 9 ) .   [2 5 ]   P ra m u k a n to ro ,   Ek o   S a k ti ,   a n d   M .   A li   F a u z i.   " Co m p a ra ti v e   a n a l y sis  o strin g   si m il a rit y   a n d   c o rp u s - b a se d   si m il a rit y   f o a u to m a ti c   e ss a y   sc o rin g   s y st e m   o n   e - lea rn in g   g a m i f ica ti o n . "   In   Ad v a n c e d   Co m p u ter   S c ien c e   a n d   I n f o rm a ti o n   S y ste ms   ( ICACS IS ),   2 0 1 6   In ter n a ti o n a C o n fer e n c e   o n ,   p p .   1 4 9 - 1 5 5 .   IEE E,   2 0 1 6 .     Evaluation Warning : The document was created with Spire.PDF for Python.