T E L KO M N I KA  T e lec om m u n icat ion ,   Com p u t i n g,   E lec t r on ics   an d   Cont r ol   Vol.   18 ,   No.   1 F e br ua r y   2020 ,   pp.   217 ~ 227   I S S N:  1693 - 6930,   a c c r e dit e F ir s G r a de   by  Ke me nr is tekdikti ,   De c r e e   No:   21/E /KP T /2018   DO I 10. 12928/ T E L KO M NI KA . v18i1. 14874     217       Jou r n al  h omepage ht tp: // jour nal. uad . ac . id/ index . php/T E L K OM N I K A   L at e n t   s e m a n t ic  a n al ysi s an d   c osi n e  si m il ar ity    f or  h a d it h  se ar c h   e n gi n e       Wah yu d in   Dar m a lak s an a 1 Ce p y   S lam e t 2 Wil d an   B u d iawan   Z u l f ik ar 3 ,   I m am   F ah m i   F a d il lah 4   Dian   S a’ ad il lah   M aylawa t i 5 ,   Hap id   Ali 6   1 D ep ar t men t   o l l mu   H a d i s ,   U IN   S u n a n   G u n u n g   D j a t i   B an d u n g ,   In d o n e s i a   2, 3, 4, 5 D e p art me n t   o I n fo rma t i c s ,   U IN   Su n an   G u n u n g   D j a t i   Ban d u n g ,   In d o n es i a   2 D ep ar t men t   o In f o mat i o n   an d   C o mmu n i ca t i o n   T e ch n o l o g y ,   A s i U n i v er s i t y ,   Mal a y s i a   5 Facu l t y   o I n fo rma t i o n   an d   Co mm u n i cat i o n   T ech n o l o g y ,   U n i v er s i t i   T e k n i k a l   Mal a y s i Mel ak a,   Mal a y s i a   6 Facu l t y   o T arb i y a h   an d   E d u cat i o n ,   U IN   Su n an   G u n u n g   D j a t i   Ba n d u n g ,   In d o n e s i a       Ar t icle   I n f o     AB S T RA CT     A r ti c le  h is tor y :   R e c e ived  Aug  14 ,   2019   R e vis e De c   5 ,   20 19   Ac c e pted  De c   22 ,   20 19       Search   en g i n t ech n o l o g y   w a s   u s e d   t o   fi n d   i n fo rma t i o n   as   n ee d ed   ea s i l y ,   q u i ck l y   an d   effi c i en t l y ,   i n c l u d i n g   i n   s earc h i n g   t h e   i n fo rma t i o n   a b o u t     t h h ad i t h   w h i ch   w a s   s eco n d   g u i d e l i n o l i fe  fo m u s l i b es i d e s   t h H o l y   Q u r'an .   T h i s   s t u d y   w as   a i t o   b u i l d   a   s p eci a l i ze d   s earch   en g i n t o   f i n d   i n f o rmat i o n   ab o u t   co m p l e t an d   el ev e n   h a d i t h   i n   In d o n e s i a n   l an g u a g e.     In   t h i s   re s earch ,   s earch   e n g i n e s   w o rk e d   b y   u s i n g   l at e n t   s ema n t i an a l y s i s   (L SA an d   co s i n s i m i l ar i t y   b as e d   o n   t h k e y w o rd s   e n t ere d .   T h L SA   an d   co s i n s i mi l ari t y   me t h o d s   w ere  u s ed   i n   fo rm i n g   s t r u ct u r ed   rep res e n t a t i o n s   o f   t ex t   d at as   w e l l   as   cal c u l a t i n g   t h s i m i l ar i t y   o t h k e y w o r d   t ex t   en t ere d   w i t h   h ad i t h   t ex t   d at a,   s o   t h h a d i t h   i n fo rma t i o n   w a s   i s s u e d   i n   acco rd a n ce  w i t h   w h at   w as   s earc h ed .   Bas ed   o n   t h res u l t s   o t h t e s t   co n d u ct e d   5 0   t i mes ,   i t   i n d i cat e d   t h a t   t h L SA   an d   co s i n s i mi l ari t y   h ad   s u c ces s   rat i n   fi n d i n g   h i g h   h a d i t h   i n f o rmat i o n   w i t h   an   av erag r ecal l   v al u w a s   8 7 . 8 3 % ,   al t h o u g h   fro al l   i n f o rmat i o n   o b t a i n e d   l e v e l   o p reci s i o n   h a d i t h   w as   fo u n d   s ema n t i cal l y   n o t   man y ,   i t   w as   i n d i ca t ed   b y   t h av erag p reci s i o n   v al u w as   3 6 . 2 5 % .   K e y w o r d s :   C os ine   s im il a r it y   Ha dit h   L a tent  s e mantic  a na lys i s   S e a r c e ngine   Th i s   i s   a n   o p en   a c ces s   a r t i c l u n d e r   t h CC  B Y - SA   l i ce n s e .     C or r e s pon din A u th or :   Dia S a a dil lah  M a ylaw a ti   D ep ar t men t   o In f o rmat i cs ,   U IN   Su n an   G u n u n g   D j at i   Ban d u n g ,     In d o n e s i a .   E mail:   dians m@ui ns gd. a c . id       1.   I NT RODU C T I ON     S e a r c e ngine  be c a mes   one   of   f unc ti ons   or   the  mo s im por tant   tool   on   in f or mation   s ys tem  s pe c ially  on - li ne   s ys tem  [ 1] .   S e a r c e ngine   tec hnology   gives   it   e a s f or   s ys tem  us e r   to   ge t   the  in f or mation    quickly   [ 2] .   Google   is   one   of   c a pa ble  s e a r c e ngi ne s   but  it   s ti ll   ha s   li mi tations   in  a na lyzing  the  c o ntent  a nd  mea ning  of   s e a r c r e s ult s   [ 3] .   Along  with   a dva nc e da te  r e gulation  on  the  int e r ne t,   s e a r c e ngines   r e quir e   s pe e a nd  a c c ur a c in   r e lea s ing  r e s ult s   in   li ne   with   e xpe c tations   today.   T he   s e a r c f unc ti on   be c omes   i mpor tant   thi ng  in  ge tt ing   inf o r mation  e a s il a nd  qu ickly.   H owe ve r ,   not  a ll   s e a r c e ngines   a r e   de voted  to   f in c e r tain   inf or mation   pr e c is e ly  a nd   a c c ur a tely.   I n   thi s   s tudy,   a   s e a r c e ngine   that  wa s   buil t   s pe c if ica ll to   ge t   in f or mation  a bout  the  h a dit h   in   a c c or da nc e   with  us e r   ne e ds .   W he r e ,   the   h a dit is   the  s e c ond  im po r tant  s our c e   of   law   f or   M us li ms   a f ter   the  Holy   Qur 'a [ 4,   5 ] .   O f   c our s e ,   the  ge ne r a ted  h a dit inf or mation   mus ha nd   in   ha nd  with   ne e de r e quir e ments .   T he r e f or e ,   s e a r c e ngines   t ha a r e   buil ne e to  c ons ider   the  s e mantics   whe a ther   f r om     the  input ted  ke ywor ds   or   the  h a dit h   da ta   whic is   s a ve in  the  s ys tem.   Evaluation Warning : The document was created with Spire.PDF for Python.
                              I S S N :   1693 - 6930   T E L KO M NI KA   T e lec omm un   C omput   E C ontr o l Vol.   18 ,   No .   1 F e br ua r 2020 :    217   -   227   218   Ha dit c oll e c ti on  in  the  f o r o f   text  r e quir e s   c e r tain  pr oc e s s e s   s that  the  mea ning  of   the  text  is   maintaine [ 6] .   S tar ti ng  f r om  p r e pa r ing  uns tr u c tur e text  da ta  int o   s tr uc tur e da ta   [ 7,   8 ] .   S t r uc tur e d   r e pr e s e ntation  of   text   c a be   us e d   in   the  ne xt   pr oc e s s e s   both  in   inf o r mation   r e tr ieva l   ( I R )   a nd   text   mi ning  [ 9 ] I the  s tudy  of   obtaine inf o r mation  s e a r c e ngine,   it   us e s   the  inf or mation  r e tr ieva ( I R )   tec hnique  by   c ombi ning  the   late nt   s e mantic  a na lys is   a lgor it h a nd   c os ine  s im il a r it y .   I n   c ontr a s to   text   mi ni ng  whe r e     the  r e s ult s   obtaine f r om   the  s ys tem  a r e   not   c lea r   ye t,   I R   pr oduc e s   inf o r mation   that  ha s   a c tually   be e known   it s   f or m,   be c a us e   it   is   the  s a me  a s   the  c oll e c ti on  of   da ta  he ld  [1 0 1 2 ] .   I nf or mation  r e tr ieva ( I R )   is   us e to  c onne c r e lations hips   be twe e lar ge   text  da ta  c oll e c ti ons   a c c or ding  to  ke ywor ds .   T he   pa r ts   of   I R   incl ude :     T e xt  o pe r a ti ons   ( ope r a ti ons   of   text)   whic include   the  s e lec ti on  of   wor ds   in   ke ywor ds   o r   doc u ments     ( ter s e lec ti on)   in   the  t r a ns f or mation   of   doc ument s   or   ke ywor ds   be c ome  ter m   indexe s   ( index  o f   wo r ds ) .     Que r f or mul a ti on   ( f or mul a ti on   of   ke ywor ds )   that   gives   a   s tanda r to  the  wo r indexe s   of   ke ywor d.     R a nking  ( r a nking) ,   look  f or   doc uments   that  a r e   r e leva nt  to  ke ywor ds   a nd  a r r a nge   the  doc uments   a c c or ding  to  their   c ompatib il it with   ke ywor ds .     I nde xing  ( indexing) ,   buil a   da ta  ba s e   of   indexe s   f r om  doc ument  c oll e c ti ons .   F i r s tl y,   it   is   c a r r ied  be f or e   s e a r c hing  doc uments .   I R   s ys tem  a c c e pts   ke ywor ds   f r om   us e r s ,   then  r a nks   doc uments   on  c oll e c ti ons   ba s e on  thei r   c ompatibi li ty  with  ke ywor ds .   T he   r e s ult   of   r a nk  w hich  is   given  to  us e r s   is   doc ument s   ba s e on  the  s y s tem  a r e   r e leva nt  to  ke ywor ds .   B ut  the  r e leva nc e   of   doc uments   to  a   ke ywor is   a   s ubje c ti ve   judg ment  a nd  it   is   inf luenc e d   by  many  f a c tor s   s uc a s   topi c s ,   ti mi ng ,   s our c e s   of   i nf or mation  a nd   the  objec ti ve   o f   us e r s .   L a tent  s e mantic  a na lys is   a lgor it hm  is   wide ly  us e i pr oc e s s ing  text  da ta  by  s e mantics   a ppr oa c he s   s o   the  mea ning  of   the   text   is   maintaine d.   L a tent  s e mantic  a na lys is   c a be   us e not   only   f or   text   s umm a r iza ti on  we ll   [1 3 15 ] ,   c he c king  plagia r is [1 5 ] ,   a nd  a utom a ti c a ll e va luating  e s s a y s   [1 6 ] ,   of   c our s e   it   c a a ls be   us e f or   s e a r c hing.   L a tent  s e mantic  a na lys is   c ompar e s   the  e nter e text  with  owne text  da ta  c oll e c ti on  b a s e on   ve c tor   r e pr e s e ntations   [ 17 19 ] ,   with   r e ga r d   to  s e mantics   a ppr oa c he s   to  pr e s e r ve   the  mea ning   of   texts .     I a ddit ion  to   la tent  s e mantic  a na lys is ,   thi s   ha dit s e a r c e ngine  r e s e a r c a ls us e s   c os ine  s im il a r it to  s e e   the   s im il a r it of   text   da ta  ge ne r a ted  by   s e a r c e ngines   s that  it   c a b r ing  up   text   da ta  s e que nc e s   ba s e on  popular it y   a s   top  or de r .   C os ine  s im il a r it is   one   o f   the  mos t   popular   s im il a r it y   c a lcula ti on  methods   to   be   a ppli e to  text   doc uments   [2 0 ] .   T he   main   a dva ntage   of   the  c os ine  s im il a r it method   is   that   it   c a n’ be   a f f e c by     the  length   a nd  s hor t   of   a   doc ument.   B e c a us e   the  ter va lue   of   e a c doc ument   is   the   im por tant  th ing.   B a s e on  the  e xplana ti on  of   the  pr oblem   f or mul a ti on   a bove ,   how  late nt  s e mantic  a na lys is   a nd  c os ine  s im il a r it c a be   im pleme nted  in  f indi ng  the  h a dit h   text  ba s e on   k e ywor ds   e nter e c or r e c tl y   on  the   h a dit s e a r c e n gi ne ?   Ar e   late nt  s e mantic  a na lys is   a nd  c o s ine  s im il a r it in  th e   s e a r c e ngine  c a f ind  h a dit text  da ta  that  a r e   s e a r c he d   ba s e on  ke ywor ds   that  a r e   e nter e d   c or r e c tl a nd   r e leva nt.       2.   RE S E AR CH  M E T HO D   F igur e   1   de s c r ibes   a c ti vit f low  o f   th is   r e s e a r c h.   Ge ne r a ll y ,   th is   r e s e a c us e I R   tec hnique   that   im pleme nt  late nt  s e mantic  a na lys is   a nd  c os ine  s im il a r it a lgor it h f o r   pr oduc ing   inf o r mation  o f   ha dit hs   ba s e d   on  input   ke ywor ds .   T he   a c ti vit be gin  f r om  input ing  the  ke ywor ds   ( c a be   in  the  f or of   wor ds ,   p hr a s e ,   or   s e ntenc e ) ,   the  input   ke ywor will   be   pr oc e s s e i text  pr e - pr oc e s s ing  pha s e   to  c lea t e xt  da ta.   T he n,   L S a gor it hm  wi ll   be   c onduc ted   to   c r e a te  te r m   doc ument  matr ix  a nd   ge t   the   ve c tor   va lue  o f   e a c d oc ume nt.   L a s t,   the  s im il a r it o f   input   ke ywor ds   a nd  ha dit h   da ta  c o ll e c ti on  will   be   c ounted  us ing  c os ine  s im il a r it y .           F igur e   1 .   R e s e a r c Ac ti vit ies     Start Input  keywords Text Pre-pr ocessin g: 1. Token izing 2. Casefolding 3. Filtering/Clean ing Data 4. Remo ving Sto pwords 5. Ste mmin g Hadith Data Collectio n Term Diction ary Conduc ting Late nt Sem antic A nalysis: 1. Creating term docu men t matrix 2. Calculat ing Sin gular Value Deco mposition 3. Calculat ing vect or value from each docu men t Calculatin g Cosine Similarity v alue Information  of Hadith End Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NI KA   T e lec omm un   C omput   E C ontr o l         L atent  s e mantic  analys is   and  c os ine  s imil ar it y   for   hadit s e ar c e ngine   ( W ahy udin  Dar malak s ana )   219   2. 1 .   L at e n t   s e m an t ic  an alys is   ( L S A)   L a tent  s e mantic  a na ly s is   is   a a lgebr a ic  me thod  that  e xtr a c ts   hidden  s e mantic  s tr uc tur e s   f r om  wor ds   a nd  s e ntenc e s   [2 1 ] .   L a tent  s e mantic  a na lys is   a lgor it hm  is   one   of   the  de ve lopm e nt   a lgor it hms   in   the   f ield   of   inf or mation   r e tr ieva that   is   a ble  to   c oll e c a   lar ge   n umber   o f   doc uments   in   a   da ta  ba s e   a nd   c onne c t   r e la ti ons hips   be twe e doc uments   by  matc hing  the   given  inpu t.   T h e   main  f unc ti on  o f   thi s   late nt  s e mantic  a na ly s is   is   to  c a lcula te  the  s im il a r it y   of   a   text  da ta   by   c ompar ing   ve c tor   r e pr e s e ntations   f r om   other   text  da ta   [ 15 ] .   T h e   r e s ult s   of   late nt  s e mantic  a na lys is   r e pr e s e nt  text   da ta  c o ntextua ll a nd  s e mantic  that  g ives   text  mea nings   [2 1 ,   2 2 ]   T he   e va luation  by   us ing  the   late nt  s e mantic   a na lys is   method  f oc us e s   on  wo r ds   in   wr it ing   without   c ons ider ing  to  the  or de r   of   wor ds   a nd  gr a mm a r   in  w r it teng  te xts   s that  a   s e nt e nc e   is   a s s e s s e ba s e on  the  k e wor ds   include   in  the  s e ntenc e   [2 3 ] .   B a s ica ll y,   late nt   s e mantic  a na lys is   e xtr a c ts   inf or mation  f r om   pa t ter ns   or   c oll e c ti ons   of   wor ds   that  of ten  a ppe a r   s im ult a n e ous ly  in  dif f e r e nt  s e ntenc e s .   I f   the   s e ntenc e   c ontains   a   c oll e c ti on  of   wor ds   that  of ten  a ppe a r   in  lar ge   n umber s ,   the  s e ntenc e   ha s   s e mantic  or   s a f e   mea n ing  [2 1 ] Ge ne r a ll y,   the  s teps   of   late nt  s e mantic  a na ly s i s   that  a r e   us e f or   text  da ta,   a mong  other s   [2 4 ] text     pr e - pr oc e s s ing,   c r e a ti ng  ter m   of   doc ument  mat r ix,   c a lcula ti ng   s ingul a r   va lue   de c ompos it ion  ( S VD )   a nd  c a lcula ti ng  ve c tor   va lue  f o r   e a c doc ument     2. 1. 1.   T e xt   p re - p r oc e s s in g   T he   text   pr e - pr oc e s s ing  s tage   is   the  s tage   to   pr e p a r e   text  da ta   whic is   uns tr uc tur e d   da ta  be c omes     a   s tr uc tur e d   da ta   r e pr e s e ntation  [ 7,   2 5 ,   2 6 ] .   T he   pr oc e s s   s tar ts   f r om   tokeniz a ti on,   de lete s   r e gular   e xp r e s s ions ,   de lete s   non  letter   c ha r a c ter s ,   de lete s   s top  wor ds ,   a nd  s temmi ng .   I n   f a c t,   i f   ne e de d,   it   is   c a r r ied   out   a   s pe c ial  pr oc e s s   to  ha ndle  na tur a langua ge s   c ontaine in  text  da ta,   s uc a s a bbr e viations ,   s lang,   r e gional  langua ge s ,   a nd  other   na tu r a langua ge s .   T he   dis c us s ion  r e ga r ding  text   pr e - pr oc e s s ing  will   be   e xplaine f ur ther   in     s e c ti on  3. 2.     2. 1. 2.   Cr e at in g   t e r m   o f   d oc u m e n t   m at r ix   Af ter   c a r r ied  ou the   pr e - pr oc e s s ing  s tage   in   the   text   da ta,   then   the  te r m   of   doc ument  matr ix   is   c ons tr uc ted  by  plac ing  the  wor r e s ult   of   the  s temmi ng  ( ter m )   pr oc e s s   int the  r ow .   T h is   matr ix  is   c a ll e   the  ter of   doc ument  matr ix.   E a c r ow   r e pr e s e nts   a   unique  wor d,   whi le  e a c c olum r e pr e s e nts   the  obtaine wor s our c e .   T he   s our c e   o f   the  wor d   c a be   s e ntenc e s ,   pa r a gr a phs ,   or   a ll   pa r ts   of   the   text.   T he   e xa mpl e s   of     the  ter of   doc ument   matr ix  c a be   s e e i T a ble  ( that   pr e s e nted  with  I ndone s ian  la ngua ge ) .     On  the  T a ble  1 ,   the  f i r s r ow   r e pr e s e nts   the  wor d   ha s   pa s s e the  pr e   pr oc e s s   unti the  s temmi ng  p r oc e s s   is   c a ll e s temmed  ter m   ( the   wor d   a s   ter m   1 ,   ter m   2,   e tc . ) ,   a nd   the   c olum n   r e pr e s e nts   th e   c ontext ,   na mely   the  text.     T he   va lue  is   loca ted  in   e a c c e ll   on   the   table   s hows   how  the   number   of   ti mes   in   a   te r a ppe a r s   in   a   do c ument.   F or   ins tanc e ,   the  te r 1   a ppe a r s   ti me  a t   the  f i r ts   doc ument,   a nd  a ppe a r s   ti mes   a t   the  s e c ond  doc ument,   but   the  te r 1   doe s   not  a ppe a r   a thi r doc ument,   a nd  s on.       T a ble  1 .   M a tr ix  e xa mpl e   f or   ter o f   doc ument   W or d   Do c   1   Do c   2   Do c   3   ja ngan   ( do not)   1   1   0   k al ia n   ( you)   1   1   0   dus ta   ( li e )   1   1   1   at as   ( on be ha lf )   1   1   1   nam a   ( na me )   1   1   1   ni s c ay a   ( s ur e ly )   1   0   0   m as uk   ( e nt e r )   1   1   0   ne r ak a   ( th e  he ll )   1   1   1   s ungguh   ( a c tu a ll y)   0   1   0   s e ngaj a   ( e xpr e s s ly )   0   0   1   te m pat   ( pl a c e )   0   0   1   duduk   ( s e a t)   0   0   1   he ndak   ( s houl d)   0   0   1       2. 1. 3.   Calc u lat in s in gu lar   valu e   d e c om p s it ion   a n d   ve c t or   valu e   f or   e ac h   d oc u m e n t   S ingul a r   va lue   de c ompos it ion  S VD   is   a   li ne a r   a l ge br a   theor e m   whic c a s pli t   ter m   of   doc ument   matr ix  int th r e e   ne matr ice s ,   thos e   a r e :   or thogon a matr ix  or   lef s ingul a r   ve c tor   mat r ix  ( U ) ,   diagon a matr ix   or   s ingul a r   va lue  mat r ix  ( S ) ,   a nd   tr a ns pos e   of   or thogonal  matr ix  o r   r ight   s ingul a r   mat r ix   ( V)   [2 7 29] f or mul a ted  by   ( 1)   that  i ll us tr a ted  in   F igur e   2 .     =   US  V T   ( 1)     Evaluation Warning : The document was created with Spire.PDF for Python.
                              I S S N :   1693 - 6930   T E L KO M NI KA   T e lec omm un   C omput   E C ontr o l Vol.   18 ,   No .   1 F e br ua r 2020 :    217   -   227   220       F igur e   2 .   S VD   I ll us tr a ti on   of   ( 1)   [3 0 ]       T he   f or mul a   ( 1)   is   obtaine f r om  the  matr ix   whic is   a   matr ix  of   m   s ize   a nd  a   matr ix     of   x   s ize ,   a s   il lus tr a ted  in   F igur e   1,   a nd  V   wh ich  ha ve   or thogonal  c olum ns   s o   that  it   c a   be   va li d:     UT   =   VT   V   =   1     ( 2)     a nd  S   is   a   d iagona matr ix   of   x   s ize .   T he   c on tents   on  the  main   diagona of   the  S   matr ix   a r e   s in gular   of     the  A   matr ix .   T he   r e s ult s   o f   the  S VD   c a n   be   b e tt e r   unde r s tood   if   A   mat r ix   is   wr it ten   with   a   dif f e r e nt   int e r pr e tation.   I f   1 , 2 , ,   a r e   c olum ve c tor s   of   the  mat r ix,   1 , 2 ,   a r e   e ntr ies   in  the  main  diagona of   the  S   matr ix,   a nd  1 , 2 ,   a r e   c olum ve c tor s   of   V   matr ix ,     matr ix   c a be   w r it ten  a s   s hown  in   ( 3) .     =     = 1     ( 3)     w he r e   the  va lue  o f   σ1   is   f o r   1 ,   f or   =   1,   2,   . . . ,   k ,   on   ( 3)   it   is   s or ted  f r om   the  la r ge s to  the   s malles t.     I f   s ome  big   va lues   1     a r e   take a nd   a   s mall  ( ne a r   z e r o)   σ_   ( 1)   va lue   is   dis c a r de d,   we   ge t   a n   a ppr oxi mation   f r om   good   va lue .   S o,   by   us ing  S VD ,   a   matr ix   c a be   wr it ten   a s   a   s um  o f   the  c omponents   ( 1   f or   =   1 ,   2,   …,   k) ,   a nd   it s   we ight   is   the  s ingul a r   va lue   ( 1   ,   f or   i   =   1,   2,   …  k ,   a r e   take f r om  the  f o r mul a   of   ( 4 )   [ 3 0 ].     =   [ 1 , 2 , , [ 1 0 0 0 2 0 0 0 ] [       1 2 ]         ( 4)     S VD   c a identi f a nd   a r a nge   di mens ions   that  indi c a te  whic da ta  va r iations   of ten   a ppe a r .   S VD   take s   the  ter of   doc ument  matr ix   whic c ons is ts   of   wor ds   a nd  doc uments   a s   in  T a ble  whic ha s   be e br oke n   down  int li ne a r   indepe nde nt  c o mponents .   T he   r e s ult   of   the  S VD   pr oc e s s   is   a   ve c tor   that  wil be   us e to  be   c a lcula ted  it s   s im il a r it by  a n   a ppr oa c h.     2. 1. 4.   Calc u lat in c os in e   s im il ar i t y   C os ine  s im il a r it is   us e to  c a lcula te  the  c os in e   va lue  be twe e doc uments   ve c tor   in  a   c oll e c ti on  a nd  the  ne e de input   ve c tor   [3 1 ,   3 2 ] .   T he   s maller   the  pr oduc e d,   the  higher   the  leve of   s im il a r it of   the  e s s a oc c ur e .   T he   f or mul a   of   c os ine  s im il a r it is   a s   s hown  in  ( 5 ) :     C os   α   =   A . B | A | . | B | = A = 1   x   B ( A ) 2 = 1 x   ( B ) 2 = 1   ( 5)     with  the  s tate ment,   it   s howe that  is   a   doc ument  ve c tor ,   B   is   a input   ve c tor ,   A.   B   is   the  dot  pr oduc of   ve c tor   with  ve c tor   B ,   |A|  is   the   length  of   ve c tor   A ,   |B i s   the  length  of   ve c tor   B ,   |A|.   |B is   a   c r os s   pr oduc be twe e |A|  a nd  |B a nd  α   is   the  a nge whic h   is   f or med   be tw e e ve c tor   a nd  ve c tor   B .       3.   RE S UL T S   AN AN AL YSI S   I thi s   s e c ti on,   it   is   e xplaine d   the  r e s ul ts   of   r e s e a r c a nd  a the   s a me  ti me  is   given   the  c omp r e he ns ive  dis c us s ion  a bout  how  L S a nd  C S   a r e   im ple mente in  s e a r c hing  inf or mat ion  of   h a dit hs   a nd  pr e s e nt    the  e va luation  r e s ult   of   e xpe r im e nt   that  c onduc ted.     3. 1.     P r e - p r oc e s s in f or   t e xt   d at a     T e xt  da ta   is   uns tr uc tur e d   da ta  that   ne e ds   s pe c ia tr e a tm e nt   be f or e   c a r ied   out   mi ning   pr oc e s s   or   s e a r c hing  f or   in f or mation   c ontaine in   the  text   [3 0 ] .   T he   p r e   pr oc e s s ing  s tage   f or   text  is   the  s tage   of   p r e pa r ing  text  da ta  int a   s tr uc tur e da ta  r e pr e s e ntation.   Ge ne r a ll y,   two  types   of   s tr uc tur e da ta  r e pr e s e ntations   f or   text   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NI KA   T e lec omm un   C omput   E C ontr o l         L atent  s e mantic  analys is   and  c os ine  s imil ar it y   for   hadit s e ar c e ngine   ( W ahy udin  Dar malak s ana )   221   a r e   ba of   wor ds   a nd  mul ti ple  o f   wor ds   [ 33 ,   34 ] .   L a tent  s e mantic  a na lys is   is   one   a lgor it hm  that  pr oduc e s   s tr uc tur e text  r e pr e s e ntations   in  the  f o r o f   mul t ipl e   of   wor ds .   W he r e ,   the  text  is   not  only   r e pr e s e nted  by  1   wor but   a ls o   c a be   mor e   than   1   wor d   or   a ls o   known  a s   n - gr a m.   E ve the   late nt   s e mantic  a na ly s is   wor c oll e c ti ons   c on s ider s   to  the  s e mantics   be twe e one   wor a nd   a nother .   P r e - pr oc e s s ing  of   text  da ta  s tar ts   f r om   unif or m it of   the  s ize   of   letter s   to   lowe r c a s e ,   de leting  c ha r a c ter s   other   than  letter s   a nd   r e gular   e xp r e s s ions ,   if   it   is   n e c e s s a r to  c ha nge   a bbr e viations   to  be   t he i r   or igi n a f or m ,   de lete   unim por tant  wor ds   or   s top  wor r e moval ,   t he it   is   the  pr oc e s s   to  c ha nge   the  ini ti a wor ds   in to  wor ds   e s s e nti a ll or   s temmi ng.   I thi s   s tudy,   the  s temm ing  pr oc e s s   us e s   the  Na z ief   Adr iani  a lgor it hm  be c a us e     the  h a dit h   text   doc um e nts   a r e   a r r a nge d   in   I ndone s ian.   T he   Na z ief   &   Adr iani   a lgor i thm   is   the   mos c o mm only   us e s temmi ng  a lgor i thm   f or   I ndone s ian  be c a us e   it   is   in   a c c or da nc e   with   the   s yntax  o f   I ndone s ian  [ 35 39] T he   r e s ult s   of   the  s temmi ng  us e a s   da ta  a r e   e nter e f or   the  late nt  s e mantic  a na lys is   a nd  f or med  the   ter of   doc ument  matr ix  f r om   the  text   da ta.     3. 2.    I m p lem e n t at ion   of   lat e n t   s e m an t ic   an alyai s   an d   c os in e   s im i larit o n   t h e   h ad i t h   s e ar c h   e n gi n e s   L a tent  s e mantic  a na lyais   is   a ppli e a f ter   the  pr e   pr oc e s s of   text  is   c ompl e te.   T he the   pr e   p r oc e s s   r e s ult s   will   be   f or med  to  be   ter of   doc ument  mat r ix.   T he   ter m   o f   doc ument  matr ix  wil be   c omput e by  S VD   to  pr oduc e   a   matr ix   of   U ,   S ,   a nd  V.   T he   f inal  s tage   is   the  a ppli c a ti on  of   c os ine  s im il a r it to   s e e   the  s im il a r it y   of   the   inf o r mation  ge ne r a ted   a s   we ll   a s   a r a nge   it   ba s e on  the   leve l   of   s im il a r it y .   T he   f low  o f   the  late nt   s e mantic   a na lys is   a nd  c o s ine  s im il a r it that  im pe mente in  thi s   s tudy  c a be   s e e a the  F igur e   1.   F or   ins tanc e ,   ther e   a r e   piec e s   of   the  f o ll owing  h a dit h   doc uments   ( p r e s e nt  in  I ndone s ian  langua ge ) :     Doc u m e n t   1:   J anganlah  k ali an  be r dus ta  atas   namak u,   k ar e na  s iapa  y ang  be r dus ta  atas   namak nis c ay dia  mas uk   ne r ak a.   ( Do  not  li e   on  be ha lf   of   my  na me,   be c a us e   if   a nyon e   who  li e s   on  be ha lf   of   my  na me,   he /s he   will   go  to  the  he ll   s ur e ly. )   Doc u m e n t   2:   J anganlah  k ali an  be r dus ta  ter hadapk ( atas   namak u) ,   k ar e na  bar angs iapa  be r dus ta  ter hadapk dia  ak an  mas uk   ne r ak a.   ( Do  not  l ie  to  me  ( on   my  be ha lf ) ,   be c a us e   whoe ve r   li e s   on  me  he   will   go  to   the  he ll . )   Doc u m e n t   3:   B ar angs iapa  y ang  s e ngaja  me lakuk an  k e dus taan  atas   namak u,   mak a   he ndak lah  dia   me ne mpati  tem pat   duduk ny dar ne r ak a.   ( W hoe ve r   de li be r a tely  li e s   on   be ha lf   o f   my   na me,   he   s hould  oc c upy  his   s e a f r om   the  he ll . )     I n p u t   Keyw or d s   in   Had it h   S e ar c h   E n gi n e :   J angan  Dus ta  M as uk   N e r ak a   ( Do  not  l ie  to  go   to   the  he ll )     T e xt  da ta  f r om  thes e   thr e e   doc uments   a nd  go  to  th e   s e a r c e ngine.   I will   be   c a r ied  out  pr e - pr oc c e s s   to  pr oduc e   text   da ta  a s   f oll ows :     Doc u m e n t   1:   jangan   k ali an  dus ta  atas   nama   dus ta   Doc u m e n t   2:   jangan   k ali an  dus ta  atas   nama   dus ta  mas uk   ne r ak a   Doc u m e n t   3:   s e ngaja  dus ta  atas   nama   he ndak   tem pat  duduk   ne r ak a   I n p u t   k e ywor d s   in   h ad i t h   s e ar c h   e n gin e :   jangan   dus ta  mas uk   ne r ak a     T he n,   the   a lr e a dy  th r e e   pr e pa r e d   text  da ta   is   pr oc e s s e to  f or m   matr ixes   o f   the   ter m   of   doc ument  li ke s   on  T a ble  1   a nd  it   is   ga ined    matr ixes   a s   f oll ows     A   = (                   1 1 0 1 1 0 1 1 1 1 1 1 0 0 0 0 0 1 1 1 0 1 1 1 0 0 0 0 1 1 1 0 0 1 0 1 1 1 1 )                       Evaluation Warning : The document was created with Spire.PDF for Python.
                              I S S N :   1693 - 6930   T E L KO M NI KA   T e lec omm un   C omput   E C ontr o l Vol.   18 ,   No .   1 F e br ua r 2020 :    217   -   227   222   T he   main  s tep  that  ne e ds   to  be   c ompl e ted  is   to  de c o mpos e   matr ix  to  be   other   matr ice s   us ing  S VD ,   s tar ti ng  f r om   f indi ng   the  A T va lue  to   c a lcula te  with  c os ine  s im il a r it y.   T he   pr oc e s s   of   a pplyi n L a ten  S e mantics   Ana lys is   a nd  C os ine  S im il a r it f or   th e   ter of   doc ument  matr ix   is   in  the   f oll owing  T a ble  1.     S e a r c the  va lue  of   AT A:     A T A  =    ( 1     1     1     1     1     1     1     1     0     0     0     0     0 1     1     1     1     1     0     1     1     1     0     0     0     0 0     0     1     1     1     0     0     1     0     1     1     1     1 ) (                     1       1       0 1       1       0 1       1       1 1       1       1 1       1       1 1       0       0 1       1       0 1       1       1 0       1       0 0       0       1 0       0       1 0       0       1 0       0       1 )                     ( 8     7     4 6     7     4 4     4     8 )     s e a r c de ter mi na nt  of   A T r e s ult ,   s   |AT A - λ I |= :     ƛ = ( 8       7       4 6       7       4 4       4       8 ) ( ƛ       0       0 0       ƛ       0 0       0     ƛ ) =   ( 8 ƛ 7 4 6   7 ƛ   4 4 4 8 ƛ )     |A T A     ƛ |   =  ( 8 ƛ )  de t ( 7 ƛ 4 4   8 ƛ )   ( 7 )   ( 6 4 4   8 ƛ ) ( 4 )   ( 6 7 ƛ 4   4 )     |A T A     ƛ |   [ ( 7 ) ( 8 ƛ ) ( 4 ) ( 4 ) ] ( 7 ) [ ( 6 ) ( 8 ƛ ) ( 4 ) ( 4 ) ] + ( 4 )   [ ( 6 ) ( 4 )   [ ( 7 ƛ ) ( 4 ) ]     | ƛ | = 3 + 23 2 102 + 80 = 0     s e a r c e igen  va lue  a nd  e igen  va c tor     E igen  Va lue:   E igen  Va c tor :   λ 1=   17. 40312   V1  =   1. 24704 ,   1 . 10373,   1   λ 2=   4. 59687   V2=   - 0. 54366,   - 0. 30712,   1   λ 3=   1   V3=   - 1,   1,   0     s e a r c s ingul a r   matr ix  ba s e on  the   va lue  of   e igen  va lue  whic ha s   be e ga ined:     S 1  =   √17. 403 12   =  4. 171 7     S 2  =  √ 4.59687   =  2.14403     S 3  =  √1 =  1     S  =   ( S1 0 0 0 S2 0 0 0 S3 ) = ( 4 . 1717 0 0 0 2 . 14403 0 0 0 1 )     S - 1 = ( 0 . 23971 0 0 0 0 . 46641 0 0 0 1 )     s e a r c matr ix  va lue  by   us ing  va lue  no r maliza ti o of   e igen   va c tor   whic ha s   be e ga ined:       | V1 | = 1 . 24704 2 + 1 . 10373 2 + 1 2 =  1.94251     | V2 | = 0 . 54366 2 + 0 . 30712 2 + 1 2 =  .17894     | V3 | = 1 2 + 1 2 + 0 2 =  1.41421     V1  =     1 . 24704 1 . 94251   1 . 10373 1 . 94251   1 1 . 94251   =   0. 64197 ,   0 . 56819,   0. 51479     V2  =   0 . 54366 1 . 17894   0 . 30712 1 . 17894   1 1 . 17894 - 0. 46114,   - 0. 26051,   0. 84822   Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NI KA   T e lec omm un   C omput   E C ontr o l         L atent  s e mantic  analys is   and  c os ine  s imil ar it y   for   hadit s e ar c e ngine   ( W ahy udin  Dar malak s ana )   223   V3  =   1 1 . 41421   1 1 . 41421   0 1 . 41421 - 0. 70711,   0. 70711 ,   0     f or mul a te  V   matr ics   with  ga ined   va lue  f r omt he   r e s ult   of     nor maliza ti on  c a lcula ti on  of   e igen  va c tor :     V  =   ( 0 . 64197 0 . 56819 0 . 51479 0 . 46114 0 . 26051 0 . 84822 0 . 70711 0 . 70711 0 )     V T  =   ( 0 . 64197 0 . 46114 0 . 70711 0 . 56819 0 . 26051 0 . 70711 0 . 51479 0 . 84822 0 )     s e a r c matr ix  va lue  wi th  the  f or mul a   of     U=   AV S - 1:     U  =   (                     1       1       0 1       1       0 1       1       1 1       1       1 1       1       1 1       0       0 1       1       0 1       1       1 0       1       0 0       0       1 0       0       1 0       0       1 0       0       1 )                     x ( 0 . 64197 0 . 56819 0 . 51479 0 . 46114 0 . 26051 0 . 84822 0 . 70711 0 . 70711 0 ) x ( 0 . 23971 0 0 0 0 . 46641 0 0 0 1 )     U  =   (                     0 . 04335 0 . 14351 1 . 36301 0 . 04335 0 . 14351 1 . 36301 0 . 12615 0 . 12615 0 . 12615 0 . 15389 0 . 04335 0 . 12615 0 . 11054 0 . 16590 0 . 16590 0 . 16590 0 . 16590 0 . 47331 0 . 47331 0 . 47331 0 . 26501 0 . 14351 0 . 47331 0 . 12150 0 . 32980 0 . 32980 0 . 32980 0 . 32980 1 . 36301 1 . 36301 1 . 36301 0 . 51479 1 . 36301 1 . 36301 0 . 84822 0 0 0 0 )                         Af ter   be ing  obtaine the  va lue  o f   the  USV T   matr i x,   the  ne xt  s tep  is   to  r e duc e   the  r a nk  of   the  matr ix .   T his   wa s   done   in  or de r   to  r e duc e   c omput ing  ti me.   I is   a e xa mpl e   of   a   r a nk  r e duc ti on  of   =   f r om  the  USV T   matr ix   a s   f oll ows :     U k = (                     0 . 04335 0 . 14351 0 . 04335 0 . 14351 0 . 12615 0 . 12615 0 . 12615 0 . 15389 0 . 04335 0 . 12615 0 . 11054 0 . 16590 0 . 16590 0 . 16590 0 . 16590 0 . 47331 0 . 47331 0 . 47331 0 . 26501 0 . 14351 0 . 47331 0 . 12150 0 . 32980 0 . 32980 0 . 32980 0 . 32980 )                         S k =   ( 4 . 1717 0 0 2 . 14403 ) S k - 1 = ( 0 . 23971 0 0 0 . 46641 )     V k =   ( 0 . 64197 0 . 56819 0 . 46114 0 . 26051 0 . 70711 0 . 70711 ) V kT  =   ( 0 . 64197 0 . 46114 0 . 70711 0 . 5681 0 . 26051 0 . 70711 )     T he   las s t e is   to   c a lcula te  a ngle  c os ine  va lue  be t we e doc ument  va c tor   ( A )   a nd   input   va c tor   ( B )   a s   f oll ows     D =  D iT  U k S k - 1     Evaluation Warning : The document was created with Spire.PDF for Python.
                              I S S N :   1693 - 6930   T E L KO M NI KA   T e lec omm un   C omput   E C ontr o l Vol.   18 ,   No .   1 F e br ua r 2020 :    217   -   227   224   D =  D iT  =   (                     0 . 04335 0 . 14351 0 . 04335 0 . 14351 0 . 12615 0 . 12615 0 . 12615 0 . 15389 0 . 04335 0 . 12615 0 . 11054 0 . 16590 0 . 16590 0 . 16590 0 . 16590 0 . 47331 0 . 473 31 0 . 47331 0 . 26501 0 . 14351 0 . 47331 0 . 12150 0 . 32980 0 . 32980 0 . 32980 0 . 32980 )                     ( 0 . 23971 0 0 0 . 46 641 )     D M  =   ( 0 . 03970 0 . 57538 )     D 1 =   ( 0 . 64197 0 . 56819 )     D 2 =   ( 0 . 46114 0 . 26051 )   D 3 =   ( 0 . 70711 0 . 70711 )     C os  α =   A . B | A | . | B |     C o s   α 1 =   ( 0 . 03970 ) ( 0 . 64197 ) + ( 0 . 57538 ) ( 0 . 56819 ) ( 0 . 03970 ) 2 + ( 0 . 57538 ) 2 ( 0 . 64197 ) 2 + ( 0 . 56819 ) 2     C o s   α 2   =   ( 0 . 03970 ) ( 0 . 46114 ) + ( 0 . 57538 ) ( 0 . 26051 ) ( 0 . 03970 ) 2 + ( 0 . 57538 ) 2 ( 0 . 46114 ) 2 + ( 0 . 26051 ) 2     C os   α 1   0 . 71113     C os   α 2   0 . 43739     C os   α 3   0 . 70542     F r om  the   r e s ult s   of   the  a bove   c a lcula ti on,   it   c a be   c onc luded  that  the   a r a nge ment  of   doc uments   t ha ha ve     the  c los e s s im il a r it with  the   input   doc uments   is   d oc ument  1,   doc ument   3,   a nd  doc ument  2.     3. 3.     E xp e r im e n t   an d   r e s u lt   e valu at ion   T e s ti ng  is   c a r ied  out   by  t r ying  a ll   the  ha dit h   que r i e s   on  the  s ys tem.   R e c a ll   a nd  p r e c is ion  va lues   a r e   s e a r c he by  us ing  f or mul a s   ( 6 )   a nd   ( 7)   [ 38 39 ] .     =                                     ( 6)     =                                 ( 7)     w he r e ,   R   is   R e c a ll ,   s the  R   va lue  is   obtaine b c ompar ing  the  Numbe r   o f   r e leva nt  it e ms   r e tr ie ve with    the  t otal  numbe r   of   r e leva nt   it e ms   in   the  c oll e c ti on .   R e c a ll   is   a   doc ument  that   is   c a ll e f r om   the  s ys tem  ba s e on  the  us e r   r e q ue s ts   that  f ol low  the  pa tt e r n   of   the  s ys tem.   T he   gr e a ter   R e c a ll   va lue  c a nnot  be   s a id  a s     a   good  s ys tem  or   not.   And ,   P   is   p r e c is ion.   S o ,   the   P   va lue  is   obtaine by  c ompar ing   the  n umber   o f   r e leva nt  it e ms   r e tr ieve with  the  T otal  number   of   i tems   r e tr ieve d.   P r e c is ion  is   the  number   of   doc uments   that  a r e   c a ll e f r om  the  r e leva nt  da taba s e   a f ter   be ing  a s s e s s e by  the  us e r   with  ne e de inf or mation .   T he   gr e a ter   the   va lue  of   a   s ys tem  pr e c is ion,   the  s ys tem  c a be   s a id  we ll .   T he   pur pos e   of   the  r e c a ll   a nd  p r e c is ion  tes i s   to  obtain  inf or mation  on   the  s e a r c r e s ult s   obtaine by  the  s ys tem.   S e a r c h   r e s ult s   c a be   judged  by   it s   r e c a ll   a nd   pr e c is ion  leve l .   P r e c is ion  c a be   c o ns ider e d     a   mea s ur e   of   a c c ur a c while   r e c a ll   is   pe r f e c ti on.   T he   va lue   of   p r e c is ion  is   the   leve o f   a c c u r a c be twe e   the  inf or mation   r e que s ted  by  the  us e r   a nd   the  a ns we r s   given  by  the  s ys tem.   W hil e   the  R e c a ll   va lue  is   the   s uc c e s s   leve of   the  s ys tem  in   r e dis c ove r ing  in f or mation .   As   f or   the  r e s ult s   of   the   r e c a ll   a nd  pr e c is ion  t e s ts   a nd    the  ti me  whic is   s pe nt  on  s e a r c hing  the  tes ted  h a d it h,   it   c a be   s e e in   T a ble  2 ,   F igur e s   a nd   4.       Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NI KA   T e lec omm un   C omput   E C ontr o l         L atent  s e mantic  analys is   and  c os ine  s imil ar it y   for   hadit s e ar c e ngine   ( W ahy udin  Dar malak s ana )   225           F igur e   3 .   R e s ult   of   r e leva nt  inf o r mation   F igur e   4 .   R e s ult   of   pr e c is ion  a nd  r e c a ll   va lue       T a ble  2 .   T e s ted  r e s ult   o f   late nt   s e mantics   a na lys is   a nd  c os ine  s im il a r it y   No   K e yw or ds   A ppe a r e r e le va nt   H a di th   A ppe a r e ir e le va nt   H a di th   T he  t ot a numbe r   of  r e le va nt   H a di th   R e c a ll   (%)   P r e c is io n   (%)   1   J angan  be r dus ta   at as   nam ak m as uk   ne r ak a   ( D on’ li e   in   be ha lf   of   my   na me   to   go  to   th e   h e ll )   2   2   2   100   50   2   M e ndi r ik an  s hal at   m e nunaik an  z ak at   dan   be r puas di bul an  r am adl an   ( C a r out   pr a yi ng,  a lm s  a nd pa s in  r a ma da M ont h)     2   4   2   100   33.33   3   I s la m   di bangun  at as   li m das ar   y ai tu   pe r s ak s ia n,  s hal at z ak at puas dan   k e   bai tu ll ah   ( I s la w a s   f or me in   f iv e   pi la r s   na me ly w it hne s s pr a yi ng,  a lm s pa s ti ng  a nd   pi lg r im a ge  t o me c c a  )   3   2   3   100   60   4   B ar angs ia pa  y ang  be r puas di bul an  r am adl an   de ngan  k e imanan  dan  ik hl as   di am puni   dos a - dos any a   ( W hoe ve r   f a s ts   in   th e   mont of   R a ma da n w it h f a it h a nd s in c e r it y i s  f or gi ve n of   hi s  s in s )   2   3   4   50   40   5   M al s e bagi an  dar iman   ( S ha me   is   pa r t   of   f a it h)   1   1   3   33.33   50   30   A k pe r nah  m andi   be r s am N abi   s hal la ll ahu   ' al ai hi   w as al la m   dar s at be ja na,  dan  ta ngan   k am s al in g be r s e nt uhan   ( I  ha d ba th e d w it h t he   P r ophe s a ll a ll a a hu  ' a l a ih w a s a ll a f r om  one   ve s s e a nd our  ha nd s  t ouc he d e a c h ot he r )   1   1   1   100   50   31   Se ti ap  N abi   m e m il ik doa  y ang  di panj at k an   unt uk   um at ny a   ( E ve r P r ophe ha s   a   pr a ye r   th a he  pr a ye d f or  hi s  pe opl e )     1   3   2   50   25   32   J ik dat ang  hai ti nggalk an  s hal at   dan   bi la   be r ak hi r   b e r s ik an  dar ah   la lu   s hal at la h   (If  me ns tr ua ti on  c ome s   le a ve   pr a ye r   a nd  w he it   e nds , c le a n bl oody the n pr a y)     3   1   3   100   75   33   T uj uh  pul uh  r ib o r ang  da r um at k u   ak an   m as uk   s ur ga,  w aj ah  m e r e k s e m ua  s e pe r ti   r e m bul an  ( S e ve nt y t hous a nd of  my  pe opl e  w il l   go t o he a ve n, t he ir  f a c e s  l ik e  t he  moon)     1   4   1   100   20   47   J adi k anl ah  ( s e bagi an  da r i)   s hal at   k al ia ada  di   r um ah  k al ia dan  ja ngan  ja di k an   k ubur an   ( M a ke   ( s ome   of )   your   pr a ye r s   in   your   hous e   a nd   do not m a ke  i a  gr a ve )     1   2   1   100   33.33   48   B ar angs ia pa  m e ni nggal  dal am   k e adaan  m e ny e k ut uk an  A ll ah  de ngan  s e s uat u,  m ak ia   m as uk   ne r ak a   ( W hoe ve r   di e s   in   a   s ta te   th a a s s oc ia t e s   G od  w it s ome th in g,  he   goe s   to   he ll )     2   3   2   100   40   49   C uk upl ah  s e s e or ang  ( di anggap)   be r bohong   apabil di m e nc e r it ak an  s e m ua   ( I is   e nough   f or  s ome one  ( c ons id e r e d)  t o l ie  i f  he  t e ll s  a ll )   1   0   1   100   100   50   Se or ang  m us li m   y ang  pal in bai k   adal ah   k am bi ng  y ang  di ge m bal ak anny di   punc ak   gunung  dan  te m pat - te m pat   te r pe nc il   ( T he   b e s t   M us li is   th e   goa th a he   f e e ds   on  mount a in   to ps  a nd r e mot e  pl a c e s )     1   2   1   100   33.33   A ve r a ge  ( % )   87.83   36.25   Evaluation Warning : The document was created with Spire.PDF for Python.
                              I S S N :   1693 - 6930   T E L KO M NI KA   T e lec omm un   C omput   E C ontr o l Vol.   18 ,   No .   1 F e br ua r 2020 :    217   -   227   226   4.   CONC L USI ON   B a s e on  50  ti mes   tes ti ng   of   the   r e c a ll   a nd  p r e c is ion  va lues   that   ha ve   be e n   c a r r ied   out   ( c ontaine d   in   T a ble  2) ,   it   s howe that  the  s e a r c e ngine  ha dit h   pe r f or manc e   c a a pply  the  late nt  s e mantics   a na lys is   a lgor it hm   a nd  c os ine  s im il a r it quit e   we ll .   Ha dit inf or m a ti on  whic is   obtaine ba s e on  ke ywor ds ,   phr a s e s ,   or   s e ntenc e s   e nter e s uc c e s s f ull f ound  we ll ,   it   wa s   indi c a ted  by  a   r e c a ll   va lue  of   87. 83% .   Although  th e   ove r a ll   inf or mation   whic is   ge ne r a ted   onl ha s   a   va lue  of   a c c ur a c or   c ompl ianc e   with   us e r   input   only   36. 25 %   whic h   is   indi c a ted  by  the  va lue  of   the  pr oduc e pr e c is i on.   Ge ne r a ll y,   the  late nt  s e mantics   a na lys is   a lgor it hm  a nd  c os ine  s im il a r it that  a r e   us e a r e   a ble  to  pr oduc e   the  h a dit inf or mation   we ll .   T he r e   we r e   s e ve r a f a c tor s   that  inf luenc e the  s e a r c r e s ult s   other   than  the   pos s ibi li ty  of   a n   e r r or   in   us ing  the  a lgor i thm ,   including   inc ompl e te  da ta  a nd  too   much   nois e .   T he r e f or e ,   the   pr e   pr oc e s s ing  s tage   is   ve r im por tant   to   be   a ble   to   pr od uc e   mo r e   a c c ur a te  inf or mation.   B e c a us e   the  pr e   pr oc e s s ing  s tage   pr oduc e s   text  da ta  that  give s   a input   int the  late nt  s e mantics   a na ly s is   a lgor it hm  whic will   c e r tainly  a f f e c the  s e a r c r e s ult s .   F or   f ur ther   r e s e a r c h,   the  c oll e c ti on  of   s a ve Ha dit da ta  ne e ds   to   be   c ompl e ted  s that  s e a r c e ngines   c a lea r a nd  ge mor e   pr e c is e inf or mation.   I a ddit ion ,   the  inf or mation   obtaine c a be   de ve loped  not  only   s or ted  by  s im il a r it but   a ls c a be   gr oupe d   a c c or ding  to  their   mea nings .       AC KNOWL E DGE M E NT   Author s   wis hing  to   a c knowle dge   R e s e a r c a nd  P ubli c a ti on  C e ntr e   of   UI S una Gunung  Dja ti   B a ndung  that  s uppor ts   a nd  f unds   thi s   r e s e a r c publ ica ti on.       RE F E RE NC E S   [1 ]   J .   M.   K as s i an d   M.   Rah man y ,   “In t ro d u c t i o n   t o   s ema n t i s earch   en g i n e, ”  P r o ceed i n g s   o f   t h 2 0 0 9   In t er n a t i o n a l   Co n f er e n ce  o n   E l ec t r i ca l   E n g i n eer i n g   a n d   In f o r m a t i cs ,   I CE E 2 0 0 9 v o l .   0 2 ,   2 0 0 9 .   [2 ]   D .   K u r n i a d i   an d   A .   M u l y an i ,   T h E ff ect   o G o o g l e' s   Search   E n g i n T ec h n o l o g y   o n   t h D ev e l o p men t   o f   St u d en t   Cu l t u re  an d   E t h i c s   (i n   Bah a s a:   Pen g aru h   T ek n o l o g i   Mes i n   Pen cari   G o o g l T er h ad a p   Perk emb a n g a n   Bu d a y d a n   E t i k Mah as i s w a ) , ”  Ju r n a l   A l g o r i t m a   S ek o l a h   Ti n g g i   Tek n o l o g i   G a r u t v o l .   1 4 ,   n o .   1 ,   2 0 1 7 .   [3 ]   P.   W .   H an d ay an i ,   I.   M.   W i ry an a,   an d   J .   T .   Mi l d e,   Seman t i Bas ed   Search   E n g i n Fo In d o n e s i a n   (i n   Bah as a:     Mes i n   Pen car i   Berb a s i s k a n   Seman t i k   U n t u k   Ba h as I n d o n es i a) , ”  Ju r n a l   S i s t em   In f o r m a s i   M TI - U II ,   v o l .   4 ,   n o .   2 .     p p .   1 1 0 - 1 1 4 ,   2 0 1 2 .   [4 ]   A .   K ari m,   D es i g n   an d   D e t ect i o n   o t h T rad i t i o n   o H ad i t h   as   an   In f o rmat i o n   Ret ri e v a l   i n   t h Bo o k s   o H a d i t h   (i n   Bah as a :   Ran ca n g   Ba n g u n   Pe n d e t ek s i a n   K e s h a h i h an   H a d i t s   Se b ag a i   Seb u ah   I n fo rma t i o n   Re t ri e v al   Pa d K i t a b - K i t ab   H ad i t s ) ,”   Ju r n a l   Tek n i In f o r m a t i ka ,   v o l .   5 ,   p p .   1 2 0 ,   2 0 1 2 .   [5 ]   R.   N .   E d i ,   AS - SU N N A H   (H A D I T S)  (A n   In g k ar  Su n n ah   Fl o w   St u d y (i n   Bah a s a:   AS - S U N N A H   (H A D I T S)(S u at u   K aj i an   A l i ra n   In g k ar  Su n n a h ) ) , ”  A s a s v o l .   6 ,   n o .   2 ,   p p .   1 3 2 - 1 4 8 ,   2 0 1 4 .   [6 ]   D .   S.   May l aw at i   an d   G .   A .   P.   Sap t aw at i ,   “Set   o f   Freq u en t   W o rd   It em  s et s   as   Feat u re  Re p res e n t a t i o n   fo T ex t   w i t h   In d o n e s i a n   Sl an g , ”  Jo u r n a l   o f   P h ys i cs C o n f er e n ce  S er i es ,   v o l .   8 0 1 ,   n o .   1 ,   p p .   1 6 ,   2 0 1 6 .   [7 ]   H .   J i aw e i ,   M.   K amb er,   J .   H an ,   M .   K amb er,   an d   J .   P ei ,   " D at Mi n i n g :   Co n ce p t s   an d   T ech n i q u e s , "     3 rd   E d i t i o n ,     E l s ev i er,   2 0 1 2 .   [8 ]   J u ma d i ,   D .   S.   Ma y l a w at i ,   B.   Su b aek i ,   an d   T .   R i d w an ,   “O p i n i o n   mi n i n g   o n   T w i t t er   mi cr o b l o g g i n g   u s i n g   S u p p o r t   V ect o Mach i n e:   Pu b l i c   o p i n i o n   ab o u t   St at Is l ami U n i v er s i t y   o Ban d u n g , ”  P r o ceed i n g s   o f   2 0 1 6   4 t h   In t er n a t i o n a l   Co n f er e n ce  o n   Cy b er   a n d   IT  S e r vi ce  M a n a g em e n t ,   CITS M   2 0 1 6 ,   2 0 1 6 .   [9 ]   D .   S.   A .   May l a w at i ,   M.   A .   Ramd h an i ,   A .   Ra h man ,   an d   W .   D armal a k s a n a,   “In creme n t a l   t ech n i q u w i t h   s et   o fre q u e n t   w o r d   i t em  s et s   fo mi n i n g   l arg In d o n es i an   t e x t   d at a, ”  2 0 1 7   5 th   In t er n a t i o n a l   Co n f er en ce  o n   Cyb e r   a n d   IT  S er vi ce   M a n a g em e n t ,   CITS M   2 0 1 7 ,   2 0 1 7 .   [1 0 ]   A .   A .   O k fa n   Ri za l   Ferd i a n s y ah ,   E ma  U t am i ,   Imp l eme n t a t i o n   o Pr i n c i p a l   Co m p o n en t   A n a l y s i s   fo D i g i t al   I mag Ret ri e v al   Sy s t ems   (i n   Bah as a :   Imp l emen t as i   Pri n c i p a l   Co mp o n e n t   A n a l y s i s   U n t u k   Si s t em  T em u   Bal i k   Ci t ra  D i g i t al ) ,   Cr ea t i ve  In f o r m a t i o n   Tech n o l o g Jo u r n a l ,   v o l .   2 ,   n o .   3 2 0 1 5 .   [1 1 ]   G .   K ary o n o ,   F.   S.   U t o mo ,   A .   Si s t em,   an d   T .   Bal i k ,   In f o rmat i o n   Ret ri e v al   i n   In d o n e s i a n   L an g u ag T e x t   D o cu men t s   U s i n g   t h V ect o Sp ace  Ret r i ev al   Mo d el   Me t h o d   ( i n   Ba h as a :   T emu   Ba l i k   In f o rmas i   Pad D o k u men   T ek s   Berb a h as a   In d o n e s i D en g an   Me t o d V ect o Sp ace  Re t ri e v al   Mo d el ) , ”  S em i n a r   Na s i o n a l   Tek n o l o g i   I n f o r m a s i   K o m u n i ka s i   Ter a p a n   2 0 1 2   ( S em a n t i 2 0 1 2 ) ,   p p .   2 8 2 2 8 9 ,   2 0 1 2 .   [1 2 ]   F.   A mi n ,   In fo rmat i o n   Ret ri e v al   Sy s t em  w i t h   V ec t o Sp a ce  Mo d el   Ran k i n g   Met h o d   (i n   Bah a s a:   Si s t em  T em u   K emb al i   In fo rma s i   d e n g a n   Pemeri n g k at a n   Met o d V ec t o S p ace  Mo d e l ) , ”  D i n a m i k ,   v o l .   1 8 ,   n o .   2 ,   p p .   1 2 2 1 2 9 ,   2 0 1 3 .   [1 3 ]   M.   G .   O zs o y ,   F.   N .   A l p a s l a n ,   an d   I.   Ci cek l i ,   “T e x t   s u mmari za t i o n   u s i n g   L at en t   Seman t i A n a l y s i s , ”  Jo u r n a l   o f   In f o r m a t i o n   S c i en ce,   v o l .   3 7 ,   n o .   4 ,   p p .   4 0 5 4 1 7 ,   2 0 1 1 .   [1 4 ]   P.   W .   Fo l t z,   “L at e n t   s eman t i c   an a l y s i s   fo r   t e x t - b as e d   res ea rc h , ”  B e h a v i o r   R es e a r c h   M et h o d s ,   v o l .   2 8 ,   n o .   2 ,     p p .   1 9 7 2 0 2 ,   1 9 9 6 .   [1 5 ]   G .   Co s ma  an d   M.   J o y ,   “A n   A p p r o ach   t o   So u rce - Co d Pl ag i ar i s D e t ect i o n   an d   In v e s t i g a t i o n   U s i n g   L at en t   Seman t i c   A n a l y s i s , ”  I E E E   Tr a n s a ct i o n s   o n   Co m p u t e r s ,   v o l .   6 1 ,   n o .   3 ,   p p .   3 7 9 3 9 4 ,   2 0 1 2 .   [1 6 ]   M.   Mo n j u r u l   I s l am  a n d   A .   S.   M.   L at i fu l   H o q u e,   “A u t o ma t ed   es s ay   s co r i n g   u s i n g   G en eral i zed   L at e n t   Sema n t i A n a l y s i s , ”  2 0 1 0   1 3 th   In t e r n a t i o n a l   Co n f er e n ce  o n   Co m p u t e r   a n d   In f o r m a t i o n   Tech n o l o g (ICCIT) ,   2 0 1 0 .   Evaluation Warning : The document was created with Spire.PDF for Python.