I n d on e s i an   Jo u r n al   o El e c t r i c al   En gi n e e r i n g   an d   C o m p u te r   S c i e n c e   V o l .   17 ,   N o .   3 M a r c 20 20 ,   pp.   15 24 ~ 15 30   IS S N :   2502 - 4752 ,   D O I :   10. 1 1591 / i j e e c s . v 1 7 .i 3 . pp 152 4 - 1530             1524       Jou r n al   h o m e pa ge ht t p: / / i j e e c s . i a e s c or e . c om   M e d i c a l   d o c u m e n t s c l a ss i f i c a t i o n   u s i n g   t o p i c   m o d e l i n g       M ar yam   N u s e r 1 En as   A l - H o r an i 2   1 ,2 C o m put e r   I nf o r m a t i o D e pa r t m e nt ,   F a c ul t y   of   I n f o r m a t i o T e c hn o l ogy   a nd  C o m put e r   S c i e nc e ,     Y a r m o uk  U n i v e r s i t y ,   J o r d a n     1 C o m put e r   S c i e nc e   D e pa r t m e nt ,   F a c ul t y   of   C o m put e r   &   I nf o r m a t i o T e c hno l o gy ,     J o r da n   U ni v e r s i t y   o f   S c i e nc e   a nd   T e c hno l o gy ,   J o r da n       A r ti c l e   I n fo     A B S TR A C T     Ar t i c l e   h i s t or y :   R e c e i v e M a r   14 ,   2 019   R e v i s e J ul   30 ,   201 9   A c c e pt e O c t   2 1 ,   2 01 9       T he   n um be r   o f   di g i t a l   m e d i c a l   do c um e nt s   i s   i nc r e a s i ng   c o nt i nuo us l y ;   s e v e r a l   m e di c a l   w e bs i t e s   s h a r e   a   l o t   o f   unc l a s s i f i e d   a r t i c l e s .   T h e s e   a r t i c l e s   ha v e   v e r y   l o ng   t e xt s   t ha t   s ho ul be   r e a t o   de t e r m i ne   t he   t o pi c   o f   e a c do c um e nt .     T he   c l a s s i f i c a t i o o f   t he s e   do c um e nt s   i s   i m po r t a n t   s o   r e s e a r c he r s   c a us e   t he s e   do c um e nt s   e a s i l y   a nd  t he   e f f o r t   a nd  t i m e   i r e a d i ng   a nd  s e a r c hi ng   f o r   a   s pe c i f i c   t o pi c   w i l l   be   r e duc e d .   T he r e f o r e ,   a a ut o m a t i c   w a y   t o   e xt r a c t   l a t e nt   t o pi c s   f r o m   t he s e   t e x t   do c um e nt s   i s   n e e d e d .   T o p i c   m o de l i ng   i s   o ne   o f   t he   t e c hni que s   u s e t o   de a l   w i t t hi s   p r o bl e m .   I t h i s   pa p e r ,   a   m e d i c a l   c o l l e c t i o o f   d o c um e nt s   i s   us e d;   t h i s   c o l l e c t i o c o nt a i n s   do c um e nt s   f r o m   t h r e e   t y pe s   o f   w i de s pr e a d i s e a s e s   ( H e a r t   D i s e a s e s ,   B l o o P r e s s ur e   a nd  C ho l e s t e r o l ) .   L D A   t o pi c   m o de l i ng   t e c hn i qu e   i s   a pp l i e t o   c l a s s i f y   t he s e   do c um e nt s   i n t o   t he   pr e v i o us   m e n t i o ne t o pi c s .   A e v a l ua t i o o f   t he   a l g o r i t hm s   r e s u l t s   i s   do ne   a nd  t h e   L D A   s ho w s   a   g oo l e v e l   o f   c l a s s i f i c a t i o a c c ur a c y .   Ke y w or ds :   Cl a s s i f i c a t i o n   L a t e nt   d i r i c h l e t   a l l o c a t i o n   M e di c a l   do c um e nt s   M i n i n g   h e a l t da t a   T o pi c   m o de l i n g   C opy r i gh t   ©   2020   I n s t i t ut e   o f   A dv anc e E ng i ne e r i ng   and   S c i e nc e .     A l l   r i gh t s   r e s e r v e d .   Cor r e s pon di n g   Au t h or :   M a r y a m   N us e r,   Co m put e I n f o r m a t i o D e pa r t m e nt ,     Y a r m o uk   U ni v e r s i t y ,   21163 ,   I r b i d,   J o r d a n .   E m a i l :   m n us e r@ y u. e du. j o       1.   I N TR O D U C TI O N     T h e   h e a l t h   s e c t o r   i n   a n y   c o un t r y   s h o ul e m p ha s i z e   o h a v i n g   a   h e a l t h y   c o m m uni t y .   A dv a n c e m e n t   i h e a l t h   c a r e   i s   b a s e o n   pr e v i o us   r e s e a r c h   i n   t h e   f i e l d.   R e s e a r c h e r s   n e e t o   s e a r c h,   r e a d,   a na l y z e ,   a n e xpl o r e   pub l i s h e do c um e n t s   i n   o r de r   t o   fo l l ow   up  w i t h   t h e   pr o g r e s s   r e s e a r c h e r s   m a de   i n   t h e   f i e l d.   N ow a da y s   t h e   n u m b e r   o f   e l e c t r o n i c   do c um e n t s   a r c h i v e i s   i n c r e a s i ng,   a n b e c o m i ng  h a r de r   t o   o r ga ni z e   a n u nde r s t a n d ,     s o   t o   de a l   w i t h   t h i s   l a r ge   n u m b e r   o doc um e n t s   a   n e e a r i s e s   t o   s o m e   t e c h ni que s   o r   c o m put a t i o na l   t o o l s   t a ut o m a t i c a l l y   o r ga ni z e   t h e s e   c o l l e c t i o n s   of   d o c um e n t s .   I n   a ddi t i o n,   e f f i c i e n t   s e a r c h   a n b r o w s e   s h o ul be   c o n s i de r e d.   E xi s t i n s e a r c h   t e c hni que s   t r y   t o   m a t c h   w o r ds   i n   t h e   que ry   w i t h   t h e   w o r ds   i n   t h e   do c um e n t s   t o   r e t u rn   do c um e n t s   t ha t   c o n t a i n   t h e   que s t i o n e w o r ds .   W o r ds   ha v e   m ul t i p l e   m e a n i ngs ,   a n t h e r e f o r e   m a t c h i n g   b e t w e e n   w o r ds   i n   t h e   que r y   a n do c um e nt s   i s   n o t   e n o ug h   t o   r e t ri e v e   t h e   do c um e n t s   t ha t   a r e   c o m pa t i b l e   w i t h   t h e   us e r ’s   c o n c e pt ua l   t o pi c   o r   m e a ni n g .   T h e r e f o r e ,   w o r ds   i n   t h e   s a m e   s e n t e n c e   s h o ul b e   c o n s i de r e ra t h e r   t h a n   w o r ds   s e pa ra t e l y .   Re s e a r c h e r s   o f   m a c h i n e   l e a rni n a nd   s t a t i s t i c s   us e h i e r a r c h i c a l   p r o b a b i l i s t i c   m o de l s   c a l l e t o pi c   m o de l s   t o   b ui l n e w   m e t h o ds   t o   f i n pa t t e rn s   o f   w o r ds   f r o m   a   c o l l e c t i o n   of   d oc um e n t s .     T h e s e   pa t t e rn s   r e v e a l   t h e   t o pi c s   c o n t a i n e d   i t h e   do c um e nt s .   T h e s e   hi e ra r c h i c a l   p r o b a b i l i s t i c   m o de l s   c a n   b e   us e w i t v a r i o us   ki nds   o f   da t a   t ha t   ra n ge s   f r o m   w o r ds ,   i m a g e s ,   a n d   t o   s u r v e y   i n f o r m a t i o n   [1,   2]   A   T o pi c   m o de l   i s   o n e   t y pe   of   s t a t i s t i c a l   m o de l s   t ha t   i s   us e t o   di s c ove r   t h e   a b s t ra c t   t o pi c s   o t h e   do c um e n t   c o l l e c t i o n   a nd  i t   c a a l s o   b e   t h o ug h t   o f   a s   a   f o rm   o f   t e xt   m i ni n g ,   t o   o b t a i n   p a t t e rn s   o f   w o r ds   i n   t e xt ua l   m a t e r i a l .   T h e r e   a r e   v a r i o us   ki n ds   o f   t o pi c   m o d e l s   s uc h   a s   L a t e n t   S e m a n t i c   A na l y s i s   (L S A ),   P r o b a b i l i s t i c   L a t e n t   S e m a n t i c   A na l y s i s   (P L S A ),   L a t e n t   D i ri c hl e t   A l l o c a t i o n   (L D A ),   a n Co rr e l a t e T o pi c   M o de l   (CT M ).   L D A   i s   t h e   o n e   t ha t   w i l l   b e   us e i n   t h i s   r e s e a rc h .     Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Me di c a l   do c um e nt s   c l as s i f i c a t i on   us i n t opi c   m ode l i ng   ( Mar y am   N us e r )   1525   1. 1 .       L ate n t   S e m an ti c   an a l ys i s   (LS A)   L S A   i s   a   n a t u ra l   l a n gu a ge   pr o c e s s i n t e c hn i que   t ha t   i n v e s t i ga t e s   t h e   r e l a t i o n s hi ps   b e t w e e n   a   s e t   o do c um e n t s   a nd  t h e   t e r m s   t h e y   c o n t a i n   b a s e o t h e   d i s t ri b ut i o na l   h y p o t h e s i s .   A   v e c t o r   s pa c e   i s   c r e a t e t ha t   c o n t a i n s   w o r ds   c o un t s   pe r   pa ra g r a p h   f o r   e a c h   t e xt   do c um e n t .   S i n gu l a v a l ue   de c o m po s i t i o n   (S V D )   t e c hni que   i s   t h e n   a p pl i e d .   W o r ds   a r e   t h e n   c o m pa r e t o   de c i de   o n   t h e   s i m i l a ri t y   be t w e e n   w o r ds .   L S A   h e l ps   i n   f i n di n g   i n f o r m a t i o b e y o n t h e   l e xi c a l   l e v e l   of   w o r o c c urr e n c e s ;   i t   p r o v i de s   s e m a n t i c   r e l a t i o n s   b e t w e e n   w o r ds   a n do c um e n t s   [3 ,   4].   A   m e t h o t o   h a ndl e   o b s e r v e t e r m - do c um e n t   a s s o c i a t i o da t a   s t a t i s t i c a l l y   w a s   pr o po s e i [5] ,     t h e y   a s s um e t h a t   t h e r e   i s   u n de r l y i n l a t e nt   s e m a nt i c   s t ruc t ur e   i t h e   d a t a   w i t h   ra n do m n e s s   o f   w o r c h o i c e   w i t h   r e s pe c t   t r e t r i e v a l .   T h e y   a ppl i e L a t e n t   S e m a n t i c   A na l y s i s   ( L S A i n   o r de r   t o   e s t i m a t e   t h i s   l a t e nt   s t ruc t u r e   a n t h e   n o i s e   of   w o r ds .   T h e y   c r e a t e a   s e m a nt i c   s pa c e   fo r   a   l a r ge   m a t r i o t e r m - do c um e nt   a s s o c i a t i o n   da t a   i w h i c t e r m s   a nd  do c um e nt s   t h a t   a r e   c l o s e l y   a s s o c i a t e a r e   p l a c e n e xt   t o   e a c h   o t h e r .     1. 2 .       P r o b ab i l i s ti c   La te n t   S e m an ti c   A n al ys i s   (P LS A )   P L S A   i s   de r i v e f r o m   a   s t a t i s t i c a l   v i e w   of   L S A .   It   de f i n e s   a   ge n e ra t i v e   da t a   m o de l   t ha t   c a n   b e   us e d   i n   i n f o r m a t i o n   r e t ri e v a l ,   m a c hi n e   l e a rn i ng,   n a t u ra l   l a n gu a ge   pr o c e s s i n g ,   a n i n   r e l a t e a r e a s .   P L S A   i s   pr o po s e t o   de a l   w i t h   t h e   w e a kn e s s e s   of   L S A   t h a t   us e s   S i n gul a r   V a l ue   D e c o m po s i t i o n   of   c o - oc c ur r e n c e   t a b l e s ;   P L S A   i s   b a s e o n   a   m i x t u r e   de c o m p o s i t i o n   de ri v e f r o m   a   l a t e n t   c l a s s   m o de l   i t   a s s o c i a t e s   a   l a t e nt   c o n t e xt   v a r i a b l e   w i t h   e a c h   o c c urr e n c e   of   w o r d,   w h i c h   t a ke s   po l y s e m y   i n t o   c o n s i de r a t i o n.   T h e r e   a r e   t w o   m a i n   a dv a n t a ge s   of   P L S A :   1)  P e r pl e xi t y   m i ni m i z a t i o n   f o r   a   do c um e nt - s pe c i f i c   un i g r a m   b a s e l i n e .   2)  A u t o m a t e i n de xi n o f   d o c um e n t s .   O n e   w a y   t o   c o m pa r e   p r e di c t i v e   pe r f o r m a n c e   o P L S A   a n L S A   i s   t o   s pe c i fy   h ow   t e xt ra c t   p r o b a b i l i t i e s   f r o m   L S A   de c o m pos i t i o n.   T h e   P L S A   o ut pe r f o r m s   t h e   L S A   i n   pe r p l e xi t y   r e duc t i o n   r e l a t i ng  t o   t h e   u ni g r a m   b a s e l i n e   a n d   s h o w s   i m pr o v e m e n t s   ov e r   L a t e n t   S e m a nt i c   A na l y s i s   i a   n u m b e r   o e xpe r i m e nt s   [6 ,   7 ].     1. 3 .       L ate n t   D i r i c h l e A l l o c ati o n   (LD A )     L D A   i s   a   g e n e ra t i v e   s t a t i s t i c a l   m o de l   fo r   c o l l e c t i o n   of   t e xt   da t a .   L D A   i s   a   t hr e e   l e ve l   h i e r a r c h i c a l   B a y e s i a n   m o de l ;   e a c h   do c um e n t   o f   a   c o l l e c t i o n   i s   m o de l e a s   a   m i x t u r e   o f   v a r i o us   t o pi c s .   E a c h   t o pi c   i s   m o de l e a s   a   m i x t u r e   o ve r   a   s e t   o f   t o pi c   pr o b a b i l i t i e s .   I t he   t e xt   m o de l i n g ,   e a c h   t o pi c   p r o b a b i l i t i e s   p r o v i de   a n   e xpl i c i t   r e p r e s e nt a t i o n   o f   a   do c um e n t   [8] .   L D A   de a l s   w i t t h e   w o r ds   o f   t h e   do c um e n t s   a s   a   b a o f   w o r ds   (i t   m e a n s   t ha t   t h e   o r de r   o f   t h e   w o r ds   i n   t h e   do c um e n t   i s   no t   c o n s i de r e d) .   T h e   do c um e n t   i s   r e p r e s e n t e b y   t e rm - do c um e nt   m a t r i x   t ha t   c o n t a i n s   t h e   o c c urr e n c e s   of   e a c h   w o r i e a c h   do c um e n t   o f   t h e   c o l l e c t i o [8 ,   1] .   T h e   m a i n   i de a   i s   t ha t   do c um e nt s   a r e   r e p r e s e n t e a s   ra n do m   m i x t u r e s   ov e r   l a t e nt   t o pi c s ,   w h e r e   e a c h   t o pi c   i s   c h a r a c t e r i z e by   a   di s t r i b ut i o n   o v e r   w o r ds .   L D A   pro pos e t h e   fo l l ow i n ge n e ra t i v e   pr o c e s s   [8]  f o r   e a c h   do c um e n t   w   i n   a   c o r p us   D :   1)   Ch o o s e   t h e   num b e o f   w o r ds   N   a c c o r di ng  t o   P o i s s o n   d i s t ri b ut i o n.   2)   T h e c h o o s e   a   t o pi c   m i x t u r e   f o r   t h e   do c um e nt   a c c o r di n g   t o   D i ri c h l e t   di s t ri b ut i o n.   D i r (α) .   A   h i g h   v a l ue   of   α  m e a n s   t ha t   e v e r y   d o c um e n t   i s   l i ke l y   t o   c ont a i n   a   m i xt u r e   of   m o s t   of   t h e   t o pi c s   n o t   j us t   a   s i n g l e   t o pi c ,   l ow   v a l ue   of  α  m e a n s   t ha t   a   do c um e nt   i s   m o r e   l i ke l y   t o   b e   pr e s e n t e by   m i xt ur e   o f   a   fe w   o f   t h e   t o pi c s ,   s o   h i g h   α   m a ke s   do c um e nt s   m o r e   s i m i l a t o   e a c o t h e r.   3)   fo r   e a c h   o f   t h e   N   w o r ds :   a)   Ch o o s e   a   t o pi c   z a c c o r di n g   t o   M ul t i n o m i a l   d i s t r i b ut i o n.   b)   ge n e ra t e   a   w o r (w n   )   a c c o r di n t o   m u l t i n o m i a l   p r o b a b i l i t y   c o n di t i o n e o n   t h e   t o pi c   ( z n ) .     A   do c um e n t   i s   a   p r o b a b i l i t y   di s t ri b ut i o n   o v e r   t o pi c s .   A   t o pi c   i s   a   p r o b a b i l i t y   di s t r i b ut i o n   o v e r   w o r ds .   W o r ds   t h a t   a ppe a i n   t h e   s a m e   do c um e nt   a r e   r e l a t e d.   T h e   m o de l   ge n e ra t e s   a   do c um e n t   by   t a ki n t h e   r i g ht   n u m b e r   o f   w o r ds   f r o m   s pe c i f i e t o pi c   a n d   m i xi n g   t h e m   t o ge t h e r .   E v e r y   do c um e n t   i s   a   c o l l e c t i o n   o f   w o r ds   t h a t   a r e   t a ke n   f r o m   di f f e r e n t   t o pi c s .   T h e   m o de l   t r y   t o   pr o duc e   t o pi c   di s t r i b ut i o n ,   t h e   di s t r i b ut i o w i l l   h a v e   a s   m a n y   t o pi c s   a s   w e   a s ke d   t h e   m o de l   t o   m a ke   a n t h e   hi g h e s t   v a l ue   o f   pr o b a b i l i t i e s   o f   w o r ds   di s t r i b ut i o n   p r e s e nt   t h e   f r a c t i o o f   w o r ds   i t h e   do c um e n t   t ha t   o ri gi na t e f r o m   a   gi v e t o pi c .   T h e   r e s ul t   o f   L D A   i s   a   f i l e   t h a t   c o nt a i n s   a l l   t o pi c s   m a de   o f   t he   w o r ds   w i t h   p r o b a b i l i t i e s   b e l o n gi n t t h e   t o pi c .   (E a c do c um e nt   r e p r e s e nt e a s   a   p a t t e rn  o f   L D A   t o pi c s ).       1. 4 .       R e s e a r c h   M o ti v ati o n     S e ve r a l   r e s e a r c h e s   w e r e   c o n duc t e o n   h e a l t h   i n f o r m a t i o n   s y s t e m s   a n m e di c a l   da t a [ 9 - 15] .     S o m e   r e s e a r c h e r s   w o r ke o n   t h e   c l a s s i f i c a t i o n   o f   di ffe r e n t   di s e a s e s   s uc h   a s   di a b e t i c s   [11],   A l z h e i m e r   [12],   c a n c e r   [ 13 ,   14 w h i l e   o t h e r s   c o m pa r e s e v e r a l   c l a s s i f i c a t i o a n da t a   m i ni n a l go r i t hm s   o n   h e a l t h   d a t a   [1 5 w h e t h e r   t h e s e   da t a   w e r e   i n   E n gl i s h ,   A r a b i c [1 6 ] ,   o m u l t i l i ng ua l [1 7 ,   1 8 ] .   T h e r e   a r e   m a n y   a ppl i c a t i o n s   o n   t o pi c   m o de l i ng  t h a t   w e r e   a ppl i e i n   di f f e r e n t   do m a i n s   by   di ff e r e n t   t o pi c   m o de l i n a pp r o a c h e s .   T h e   l i t e ra t u r e   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   17 ,   N o .   3 M a r c 20 20  :     1 5 2 4   -   1 5 3 0   1526   c o n t a i n s   m a n y   e xa m pl e s   o n   r e s e a r c h e r s   w h o   us e t o pi c   m o de l l i n a n e s pe c i a l l y   L D A   fo r   e i t h e r   t e xt   c l a s s i f i c a t i o [1 9 ,   20 o r   m e di c a l   d i a g n o s i s   [ 21 ,   2 2 ]   a nd  t h e   m e t h o s h o w e i t s   e f f i c ie n c y [2 3 ,   2 4 ].   A s   a   r e a s o n   o f   un c l a s s i f i e do c um e n t s   a n t h e   di f f i c ul t y   t o   r e a a nd  de t e r m i n e   t h e   t o pi c   o f   e a c h   do c um e n t   i n   t h e   m e di c a l   do c um e n t   c o l l e c t i o n,   t h e   c l a s s i f i c a t i o n   s h o ul b e   do n e   a ut o m a t i c a l l y   by   us i n t o pi c   m o de l s   t o   m a ke   i t   po s s i b l e   t o   o b t a i n   t h e   n e e de do c um e n t s   i n   a   s pe c i f i c   t o pi c .   T h e   m a i n   o bj e c t i ve   of   t h i s   r e s e a r c h   i s   t o   us e   L D A   m e t h o o n   a   c o l l e c t i o n   of   m e di c a l   do c um e n t s   t o   c l a s s i fy   t h e s e   doc um e n t s   o ve r   t hr e e   m a i n   t o pi c s   t h a t   a r e   s t r o n gl y   r e l a t e t o   e a c o t h e r.       2.   R ES EA R C H   M ET H O D   T h i s   r e s e a r c h   i s   do n e   i a   s e ri e s   o f   o pe r a t i o n s   t o   c l a s s i f y   t h e   c o l l e c t i o n   o f   doc um e n t s   by   us i ng  L D A   t o pi c   m o de l i n a n s t u dy   t h e   pe r f o r m a n c e   o t h i s   t e c hni que   o n   t h e s e   doc um e n t s ,   w h i c h   c a n   b e   s um m a ri z e by   F i gur e   a s   f o l l o w s :             F i gu r e   1 .   T h e   m e t h o do l o g y   m a i s t e ps       T h e   p ha s e s   f o l l ow e i t hi s   r e s e a r c h   f o r   c l a s s i fy i n m e di c a l   do c um e n t s   a r e   a s   f o l l ow s :     2 .1 .      D at C o l l e c t i o n :   M e di c a l   a rt i c l e s   h a v e   v e r y   l o n t e xt s   a n c o n t a i m a n y   s e c t i o n s   s uc h   a s   t h e   a b s t r a c t ,   i n t r o duc t i o n ,   m a t e ri a l s   a n o t h e r   s e c t i o n s   a b o ut   t h e   di s e a s e s   a n t h e i r   t r e a t m e n t s . e t c .   I n   a dd i t i o n,   t h e r e   a r e   a   l o t   o t e s t s   w i t n um b e r s   a n d   m e a s u r e m e n t s   t h a t   n e e t o   b e   r e c o r de d.     T h e   c o l l e c t i o n   t ha t   i s   us e i t hi s   r e s e a r c i s   g a t h e r e f r o m   m e di c a l   w e b   s i t e s .   T h e   d a t a   s e t   c o n t a i n s   500  do c um e n t s   o f   m e di c a l   a rt i c l e s   t ha t   a r e   c o l l e c t e f r o m   t hr e e   m e di c a l   w e bs i t e s :   M e ds c a pe   (ht t p : / / w w w . m e ds c a pe . c o m ),   H i n d a w i   w e b s i t e   (ht t p : / / w w w . h i n d a w i . c o m   a nd  P ub M e d   (ht t p : / / w w w . c b i . n l m . ni h. go v / pub m e d/ ).   T h e s e   w e b s i t e s   pr o vi de   f r e e   a c c e s s   t o   m a n y   a r t i c l e s .   E a c do c um e n t   c o n t a i n s   t h e   a b s t r a c t ,   c o n c l us i o n   a n d   ke y w o r ds   o f   e a c h   a r t i c l e .   T h e   r e a s o n   o f   c h o os i n a b s t ra c t ,   c o n c l us i o a n ke y w o r d s   s e c t i o n   o f   t h e   a r t i c l e   i s   t h a t   t h e s e   pa r t s   r e p r e s e nt   t h e   i de a   o r   s u m m a ri z e   e a c h   a r t i c l e   a n d   c o n t a i t h e   i m po rt a nt   w o r ds   i t h e   s ub j e c t   o f   t h e   a r t i c l e .   T h e   c o l l e c t e m e di c a l   do c um e n t s   a r e   c h o s e n   f r o m   t hr e e   c a t e go r i e s :   H e a r t   D i s e a s e s ,   B l o o P r e s s ur e   o r   H y p e r t e n s i o n   a n C h o l e s t e r o l   o r   H y p e r l i pi de m i a .   16 do c um e n t s   a r e   a b o ut   H e a r t   D i s e a s e s ,   181  do c um e n t s   a r e   a b o ut   B l o o P r e s s ur e   a n 154   a r e   a b o ut   C h o l e s t e r o l .       2 .2 .      P r e p r o c e s s i n g   an d   C l e an i n g:   P r e p r o c e s s i n a n c l e a ni n t h e   do c um e n t s   f r o m   i rr e l e v a n t   da t a   i s   a i m po rt a nt   s t e f o r   a n y   m o de l   [2 5 w h i c h   w i l l   i m p r o v e   t h e   r e s ul t s .   T hi s   i s   t h e   m o s t   i m p o r t a nt   s t e i n   t e xt   a na l y s i s .   U n c l e a n   d a t a   ha s   a   n e ga t i v e   e ffe c t   o n   t h e   r e s ul t s .   I n   t h i s   s t e p,   t h e   c o l l e c t e do c um e nt s   f r o m   t h e   p r e v i o us   s t e (t h a t   a r e   s a v e i n   N o t e p a f i l e s a r e   c l e a n e d,   a n t h e   n e c e s s a r y   pr e pr o c e s s i n i s   do n e   i n   o rde r   t o   m a ke   t h e   do c um e n t s     r e a dy   t o   us e .     T o   c a rr y   o ut   t h e   i m pl e m e nt a t i o n   f o r   pr e p r o c e s s i n a n t o p i c   m o de l i n g ;   R   t oo l   ( R   S t udi o w i l l   be   us e d.   R   S t udi o   l a n gu a ge   t o o l   i s   o n e   o f   t h e   m o s t   po w e r f ul   a n po pul a r   f r e e   s of t w a r e   e n v i r o n m e nt s .   R   i s   a   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Me di c a l   do c um e nt s   c l as s i f i c a t i on   us i n t opi c   m ode l i ng   ( Mar y am   N us e r )   1527   l a n gu a ge   a n e n v i r o nm e n t   f o r   s t a t i s t i c a l   c o m put i ng  a n g ra phi c s .   F urt h e r m o r e ,   R   pr o v i de s   a   w i de   v a r i e t y   o s t a t i s t i c s   s uc h   a s   T - t e s t ,   c l a s s i f i c a t i o n   a n c l us t e ri n g .   F u r t h e r m o s t ,   R   a pp l i e s   g r a p hi c a l   t e c h n i que s ,   a n i s   hi g h l y   e xt e n s i b l e .     T h e   t m   pa c ka ge   (i n   R   S t udi o   t oo l off e r s   n um b e r   o t r a n s a c t i o n s   t h a t   e a s e   t h e   pr o c e s s   of   c l e a n i n g   da t a .   F o r   e xa m pl e ,   t h e   c o r pus   i s   c l e a n e us i n a   k n o w n   c l e a n i ng  p r o c e s s   s uc h   a s   r e m o v i n N u m b e r s ,   r e m o v i n P u n c t u a t i o n s ,   r e m o v i n s pe c i a l   C ha r a c t e r s   (@ ,   #,   %. . ) ,   r e m o v i ng  s t r i w h i t e s pa c e s ,   r e m o v i n g   S t o pw o r ds   (i n c l u de   E n gl i s h   s t o w o r ds   l i ke   o r ,   a n d ,   t h e …e t c ) .   In   a dd i t i o n ,   t h e   t o o l   a l l o w s   t h e   us e r   t o   a dd  a   l i s t   o f   w o r ds   t o   t h e   s t o w o r ds   l i s t .   A s   f o r   e xa m pl e ,   t h e   w or ds   f r o m   t h e   c o l l e c t e da t a   t ha t   ha v e   t h e   l o w e s t   w e i ght   s uc h   a s   A b s t r a c t ,   Co n c l us i o n ,   K e y w o r ds ,   c a n   b e   a d de [2 6 ] .     T h e   c o m m o n   E ngl i s h   s t o w o r ds   f r o m   ht t p : / / w w w . r a n ks . n l / s t o pw o r ds   w e b s i t e   a r e   us e h e r e .     T h e   500  do c um e nt s   w e r e   i nput   t o   t h e   t m   p a c ka ge   f o r   p r e p ro c e s s i n a n d   c l e a n i n g .   A   c o r pus   o f   158  di f f e r e n t   t e rm s   w a s   r e s ul t e d   a n d   w i l l   b e   us e t o   c l a s s i fy   t h e   do c um e n t s .     2 .3 .      B u i l d i n g   th e   D o c u m e n Te r m   M atr i x   A t   t hi s   s t e p ,   t h e   D o c um e n t - T e rm   M a t ri (D T M i s   c r e a t e d ,   a   m a t r i x   t ha t   l i s t s   a l l   o c c ur r e n c e s   of  w o r ds   f o r   e a c h   do c um e nt   i t h e   c o r pus .   I n   t h e   D T M   t h e   r o w s   r e pr e s e n t   t h e   do c um e n t s   (e a c h   r o w   l a b e l e o r   s t a r t   w i t h   do c um e n t ’s   n a m e a n t h e   c o l um n s   r e p r e s e n t   t h e   t e rm s   (o r   w o r ds of   t h e   doc um e n t s ,   b e s i de   e a c h   do c um e n t   (o r   r o w t h e r e   a r e   num b e r s   0,   1,   2 ,   3… n   a s   e nt ry   u n de r   e a c h   c o l um n   (t e r m ) ,   t h i s   n u m b e r   m e a n s   h o w   m a n y   t i m e s   a   t e rm   o c c ur s   i n   s pe c i f i c   d o c um e n t ,   i f   t h e   m a t r i e n t r y   of   o n e   r ow   (e x.   D oc 1)  a n u nde r   o n e   of   t h e   c o l um n s   (e x . t e r m 1 i s   z e r o ,   i t   m e a n s   t h a t   t hi s   t e r m   do e s n ’t   o c c ur   i t hi s   do c um e n t   o t h e r w i s e   i t   i s   po s s i b l e   t o   b e   1,   2 ,   3 n   w h e r e   i s   t h e   f r e que n c y   of   t ha t   t e rm .     A   l i s t   o f   t e r m s   o f   t h e   m a t r i w i t h   t h e i r   f r e que n c i e s   i s   s o r t e by   t h e i r   f r e que n c i e s .   W o r ds   w i t h   l o w   f r e que n c i e s   w e r e   r e m o ve f r o m   t h e   c o r pus   i n   o r de r   t o   r e duc e   t h e   s pa r s i t y   of   t h e   m a t r i x.   T h e   s pa r s i t y   w a s   r e duc e f r o m   99%  t o   82%.   F u rt h e r m o r e ,   w o r ds   t ha t   o c c ur   w i t h   h i g h   f r e que n c y   i n   t h e   c o r pus   a n a r e   n o t   i m po rt a nt   f o r   t h e   c l a s s i f i c a t i o n   p r o c e s s ,   s uc h   a s   a b s t r a c t ,   ke y w o r d” ,   a r e   a l s o   r e m o ve d.   158  t e r m s   f r o m   t h e   c o r pus   o f   500  do c um e n t s   w i l l   b e   us e t o   c l a s s i f y   t h e   c o r pus   i nt o   t h e   s ugge s t e t o pi c s .       2 .4 .      A p p l y i n To p i c   M o d e l i n g   o n   th e   M e d i c al   D o c u m e n ts   T h e   D T M   t ha t   r e s ul t e f r o m   t h e   pr e v i o us   s t e p   i s   us e d   a s   a n   i n p ut   t o   t hi s   pha s e .   T o   a ppl y   L D A   t o pi c   m o de l i ng,   t h e   t o pi c   m o de l i n p a c ka ge   i s   us e a n t h e   num b e r   o f   t o pi c s   i s   s pe c i f i e a s   b e c a us e   t h e   do c um e n t s   i n   t h e   c o r pus   w e r e   c h o s e n   f r o m   t hr e e   di f fe r e nt   m e di c a l   s ub j e c t s   ( w e   c h o o s e   t o pi c s   b e c a us e   w e   n e e t o   c l a s s i fy   t h e   do c um e nt s   t o   t h e i r e a l   s ub j e c t s   f r o m   t h e   t hr e e   di s e a s e s ).     T h e   o ut put   w i l l   b e   t hr e e   t o pi c s   (H e a r t   D i s e a s e   ( T o pi c   1),   B l oo P r e s s ur e   ( T o pi c   2)  a n C h o l e s t e r o l   (T o pi c   3))  e a c h   o n e   w i t h   a s s o c i a t e t e rm s   t h a t   a r e   r e l a t e t o   t h a t   t o pi c   w i t h   di f f e r e n t   p r o b a b i l i t i e s .   T a b l e   1   s h o w s   t h e   t o 10  t e rm s   a s s o c i a t e w i t h   e a c h   t o pi c .   I t   s h o w s   t ha t   f o r   e xa m pl e ,   do c um e nt s   i n   t o pi c   ha v e   a   hi g h   p r o b a b i l i t y   of   c o n t a i ni n g   t h e   w o r ds   h y p e r t e n s i o n,   s t u d y ,   b l oo d, …  w h i l e   do c um e nt s   i t o pi c   a r e   m o r e   pr o b a b l e   t o   ha v e   t h e   w o r ds   r i s k,   d i s e a s e ,   c a r d i o v a s c ul a a nd  s o   o n .   It   s h o ul b e   e m pha s i z e t h a t   e a c h   do c um e n t   i s   c o n s i de r e t o   b e   a   m i xt u r e   o f   a l l   t o pi c s   (t hr e e   t o pi c s   i n   t hi s   r e s e a r c h)  a nd  e a c h   t o pi c   c o n t a i n s   a l l   t e r m s   i n   t h e   c o r p us   w i t di f f e r e n t   p r o b a b i l i t i e s .   T a b l e   2   s h o w s   t h e   a s s i g n e p r o b a b i l i t i e s   of   t h e   f i r s t   12  do c um e n t s   t o   t h e   t hr e e   t o pi c s .   T h e   t a b l e   i n di c a t e s   t h a t   do c um e n t   n u m b e r   i s   c l a s s i f i e a s   t o pi c   w i t h   a   p r o b a b i l i t y   of   0. 31,   a t   t h e   s a m e   t i m e   i t   i s   c l a s s i f i e a s   t o pi c   w i t h   a   0 . 40   pr o b a b i l i t y ;   a n d   i t   i s   c l a s s i f i e a s   t o pi c   3   w i t a   0. 28  p r o b a b i l i t y .         T a b l e   1 .   T h e   t o 1 T e rm s   R e l a t e d   E a c T o pi c   T o p i c   1   T o p i c   2   T o p i c   3   h y p e rt e n s   Ri s k   c h o l e s t e r o l   S t u d i   D i s e a s   l e v e l   Bl o o d   c a rd i o v a s c u l a r   p a t i e n t   p r e s s u r   H e a rt   e ffe c t   p a t i e n t   Cl i n i c   t re a t m e n t   A g e   Ch d   i n c r e a s   c o n t r o l   P a t i e n t   t h e ra p i   s i g n i f i c   Co r o n a r y   re d u c   G ro u p   O u t c o m e   L i p i d   h i g h e r   M e d i c   l o w e r     T a b l e   2 .   A s s i g ni n g   D o c um e nt s   P r o ba b i l i t i e s     t o   t h e   T o pi c s   T o p i c 1   T o p i c 2   T o p i c 3   0 . 3 1 3 1 3 1   0 . 4 0 4 0 4   0 . 2 8 2 8 2 8   0 . 2 9 5 8 3 3   0 . 4 3 3 3 3 3   0 . 2 7 0 8 3 3   0 . 2 2 0 2 3 8   0 . 2 6 4 8 8 1   0 . 5 1 4 8 8 1   0 . 2 7 6 4 2 3   0 . 2 2 7 6 4 2   0 . 4 9 5 9 3 5   0 . 4 2 2 5 7 2   0 . 1 8 6 3 5 2   0 . 3 9 1 0 7 6   0 . 3 0 7 3 5 9   0 . 3 0 7 3 5 9   0 . 3 8 5 2 8 1   0 . 2 7 8 8 6 7   0 . 2 0 6 9 7 2   0 . 5 1 4 1 6 1   0 . 2 8 0 3 0 3   0 . 4 0 5 3 0 3   0 . 3 1 4 3 9 4   0 . 1 8 5 5 3 5   0 . 2 7 9 8 7 4   0 . 5 3 4 5 9 1   0 . 2 9 0 1 9 6   0 . 2 5 4 9 0 2   0 . 4 5 4 9 0 2   0 . 2 2 8 0 7   0 . 2 5 9 6 4 9   0 . 5 1 2 2 8 1   0 . 4 3 5 8 9 7   0 . 2 3 8 0 9 5   0 . 3 2 6 0 0 7           Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   17 ,   N o .   3 M a r c 20 20  :     1 5 2 4   -   1 5 3 0   1528   2 . 5 .      M e d i c a l   D o c u m e n ts   C l as s i fi c ati o n     F i na l l y   a f t e r   e xt r a c t i n t h e   t o pi c s   t e rm s ,   e a c do c um e n t   h a s   t hr e e   v a l ue s   o f   a s s i gn e p r o b a b i l i t i e s   t t h e   t hr e e   t o pi c s .   T h e   T o pi c   w i t h   t h e   hi g h e s t   p r o b a b i l i t y   w i l l   b e   c h o s e n   t o   c l a s s i fy   t h e   doc um e n t .   A s   a   r e s ul t ,   D o c um e n t   n u m b e r   i s   c l a s s i f i e a s   t o pi c   2 ,   D o c um e n t   num b e r   i s   a l s o   c l a s s i f i e a s   t o pi c   2,   w h i l e   do c um e n t   n u m b e r   i s   c l a s s i f i e a s   t o pi c   3.   T h e s e   r e s ul t s   a r e   hi g hl i g ht e i n   T a b l e   fo r   t h e   f i r s t   12  do c um e nt s     of   t h e   c o r pus .         T a b l e   3 .   L i s t   o f   t h e   D o c um e nt s   T o pi c   A s s i g nm e nt s   D o c u m e n t   T o p i c 1   T o p i c 2   T o p i c 3   A s s i g n e d   T o p i c   1 . t x t   0 . 3 1 3 1 3 1   0 . 4 0 4 0 4   0 . 2 8 2 8 2 8   2   1 0 . t x t   0 . 2 9 5 8 3 3   0 . 4 3 3 3 3 3   0 . 2 7 0 8 3 3   2   1 0 0 . t x t   0 . 2 2 0 2 3 8   0 . 2 6 4 8 8 1   0 . 5 1 4 8 8 1   3   1 0 1 . t x t   0 . 2 7 6 4 2 3   0 . 2 2 7 6 4 2   0 . 4 9 5 9 3 5   3   1 0 2 . t x t   0 . 4 2 2 5 7 2   0 . 1 8 6 3 5 2   0 . 3 9 1 0 7 6   1   1 0 3 . t x t   0 . 3 0 7 3 5 9   0 . 3 0 7 3 5 9   0 . 3 8 5 2 8 1   3   1 0 4 . t x t   0 . 2 7 8 8 6 7   0 . 2 0 6 9 7 2   0 . 5 1 4 1 6 1   3   1 0 5 . t x t   0 . 2 8 0 3 0 3   0 . 4 0 5 3 0 3   0 . 3 1 4 3 9 4   2   1 0 6 . t x t   0 . 1 8 5 5 3 5   0 . 2 7 9 8 7 4   0 . 5 3 4 5 9 1   3   1 0 7 . t x t   0 . 2 9 0 1 9 6   0 . 2 5 4 9 0 2   0 . 4 5 4 9 0 2   3   1 0 8 . t x t   0 . 2 2 8 0 7   0 . 2 5 9 6 4 9   0 . 5 1 2 2 8 1   3   1 0 9 . t x t   0 . 4 3 5 8 9 7   0 . 2 3 8 0 9 5   0 . 3 2 6 0 0 7   1       3.   R ES U LTS   A N D   A N A L Y S I S   3. 1 .      Ev al u ati o n   o th e   A c c u r ac y   o LD A   B e fo r e   t h e   e v a l ua t i o n   p h a s e   s t a rt s ,   t h e   do c um e n t s   w e r e   s e n t   t o   a   m e di c a l   e xpe rt   i n   a   s um m a r i z e fo r m .   T h e   e xpe r t   c l a s s i f i e t h e   do c um e nt s   a s   b e l o n gi n t o   t o pi c 1,   o r   3 .   T h e s e   c l a s s i f i c a t i o n s   w e r e   us e a s   a   b a s e   t o   e v a l u a t e   t h e   c l a s s i f i c a t i o n s   p r o duc e f r o m   t h e   L D A   a l go r i t hm .     In   t h i s   e v a l u a t i o n   p ha s e ,   t h e   L D A   c l a s s i f i c a t i o n   r e s ul t s   w i l l   b e   c o m pa r e w i t h   t h e   c l a s s i f i c a t i o of  t h e   doc um e n t s   t ha t   i s   c l a s s i f i e by   e xpe r t s   i n   m e di c a l   do m a i n   t o   de t e r m i n e   t h e   a c c ura c y   v a l ue   of   a ppl y i n g   t h i s   t e c hni que   o n   t h e   da t a   s e t .   T hi s   v a l ue   r e p r e s e n t s   t h e   e ffe c t i v e n e s s   of  L D A   t o pi c   m o de l i n i n   c l a s s i f y i n m e di c a l   t e xt   do c um e n t s .   T a b l e   s h o w s   a   s a m pl e   o f   t h e   c o m pa r i s o n   o f   t h e   r e s ul t s   p r e di c t e by   L D A   a n d   c l a s s i f i e by   t h e   e xpe rt   f o r   t h e   f i r s t   12  do c um e n t s .   T h e   a c c ur a c y   i s   m e a s ur e by   us i n t h e   Co n f us i o n   M a t r i a s   s h ow n   i n   T a b l e   5 ,   w h i c h   s h o w s   h o w   m a n y   doc um e n t s   a r e   c l a s s i f i e c o r r e c t l y   a n h o w   m a n y   do c um e n t s   a r e   m i s c l a s s i f i e d.   A s   f o r   e xa m pl e ,     f r o m   t h e   181  do c um e nt s   i n   t o pi c   1,   112  o nl y   w e r e   c l a s s i f i e c o r r e c t l y ;   w h i l e   38  do c um e n t s   w e r e   m i s c l a s s i f i e a s   t o pi c   2   a n 27  do c um e n t s   w e r e   m i s c l a s s i f i e d   a s   t o pi c   3 .       T a b l e   4 .   A   Co m pa ri s o b e t w e e n   t h e   L D A   D o c um e n t s   Cl a s s i f i c a t i o n   w i t t h e   R e a l   T o pi c   o f   t h e   D o c um e n t s   D o c u m e n t   p r e d i c t e d   t o p i c   A c t u a l   t o p i c   M a t c h ?   1 . t x t   2   2   Y e s   1 0 . t x t   2   2   Y e s   1 0 0 . t x t   3   3   Y e s   1 0 1 . t x t   3   3   Y e s   1 0 2 . t x t   1   3   No   1 0 3 . t x t   3   3   Y e s   1 0 4 . t x t   3   3   Y e s   1 0 5 . t x t   2   3   No   1 0 6 . t x t   3   3   Y e s   1 0 7 . t x t   3   3   Y e s   1 0 8 . t x t   3   3   Y e s   1 0 9 . t x t   1   1   Y e s       T a b l e   5 .   T h e   Co n f us i o M a t r i x   A c t u a l   T o p i c   p r e d i c t e d   T o p i c     T o t a l   A c c u ra c y     T o p i c 1   T o p i c 2   T o p i c 3       T o p i c 1   112   38   27   181   6 1 . 8 %   T o p i c 2   17   134   15   165   8 1 . 2 %   T o p i c 3   17   29   111   154   7 2 . 1 %   To ta l   146   201   153   500     A c c u r a c y   7 6 . 7 1 %   6 6 . 7 %   7 2 . 5 %     7 1 . 4 %     Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Me di c a l   do c um e nt s   c l as s i f i c a t i on   us i n t opi c   m ode l i ng   ( Mar y am   N us e r )   1529   A c c ur a c y   = #o f   c o r r ec t l y   c l as s i f i ed   d o c umen t s T o t al   n umb er   of   d o c uen t s       112 + 134 + 111 500   =   357 / 500   =   71 . 4%     3. 2 .      R e s u l ts   A n al ys i s   A f t e r   a pp l y i n t h e   L D A   m o de l   t o   c l a s s i f y   500  do c um e n t s   i n t o   t hr e e   t o pi c s :   T o pi c a b o ut   B l o o d   P r e s s ur e   o r   H y p e r t e n s i o n,   T o pi c a b o ut   H e a r t   D i s e a s e s   o r   Ca r di o v a s c ul a r   a n T o pi c a bo ut   Ch o l e s t e r o l   o r   H y pe r l i pi de m i a ,   t h e   o ut put   w a s   146  do c um e nt s   w e r e   a s s i gne a s   T o pi c 1,   201  do c um e n t s   a s s i g n e a s   T o pi c a n 153   do c um e n t s   a s s i g n e d   a s   T o pi c 3.   T h e   o ve r a l l   A c c ur a c y   of   t h e   do c um e n t s   c l a s s i f i c a t i o n   w a s   71 . 4% .     T h e   L D A   a s s i g n s   a   p r o b a b i l i t y   t o   e a c h   do c um e n t .   A l l   do c um e nt s   w e r e   m e di c a l   do c um e n t s   a n d   t hi s   m e a n s   t ha t   t h e y   h a v e   s e ve r a l   w o r ds   i n   c o m m o n.   I n   a ddi t i o n,   t h e   c h o s e n   di s e a s e s   (t o pi c s a r e   r e l a t e t o   e a c h   o t h e r.   A s   a   r e s ul t ,   t h e r e   i s   a   p r o b a b i l i t y   t ha t   do c um e n t s   w i l l   b e   m i s c l a s s i f i e d.   I n   a dd i t i o n ,   i r a r e   c a s e s   t h e   L D A   a s s i gn s   p r o b a b i l i t i e s   t ha t   a r e   c l o s e   t o   e a c h   o t h e r.   A s   fo r   e xa m p l e ,   do c um e n t   i s   a s s i g n e a s   t o pi c   w i t h   p r o b a b i l i t y   42%  a n a s   t o pi c   w i t h   p r o b a b i l i t y   39%.   A s   m e n t i o n e b e f o r e   t h i s   i s   b e c a us e   d o c um e n t s   ha v e   w o r ds   i n   c o m m o n   a nd  a r e   a l l   i n   t h e   s a m e   m a i c a t e go r y   (m e di c a l   do c um e n t s ) .   A ddi t i o na l l y ,     th e   p r e p r o c e s s i n s t e i s   i m po r t a n t   i a f f e c t i n g   t h e   p r o c e s s   of   e xt r a c t i n g   t h e   t o pi c s .       4.   C O N C LU S I O N     D ue   t o   t h e   l a r ge   n u m b e r   o f   di gi t a l   m e di c a l   do c um e n t s   t ha t   a re   n o t   c l a s s i f i e i nt o   s pe c i f i c   s ubj e c t s   o r   t o pi c s   a n b e c a us e   of   t h e   l o ng  t e x t   i e a c h   do c um e nt   a n d   t h e   s e v e r a l   s e c t i o n s   i t   ha s ,   a   n e e t o   t h e   c l a s s i f i c a t i o a ri s e s .   A n   a ut o m a t e c l a s s i f i c a t i o m e t h o d   w i l l   r e duc e   t h e   t i m e   a n d   e ff o r t   n e e de t c l a s s i f i c a t i o c o m pa r e t o   m a nua l   c l a s s i f i c a t i o by   a   f i e l e x pe r t .     O n e   o f   t h e   m o s t   c o m m o n   c l a s s i f i c a t i o n   t e c hni que s   i s   T o pi c   M o de l i n g .   L D A   t o pi c   m o de l   i s   us e i t h i s   r e s e a r c h   t o   e xt r a c t   t o pi c s   f r o m   t h e   c o l l e c t e doc um e nt s   a n a s s i g n   t h e m   t o   t h e   m o s t   pr o b a b l e   t o pi c .     F i v e   h un d r e do c um e nt s   w e r e   c o l l e c t e f r o m   m e di c a l   w e b s i t e s .   P r e pr o c e s s i n i s   do n e   t o   t h e   do c um e n t s ,     a n t h e   r e s ul t s   a r e   f e t o   t h e   L D A   t o o l .   T h e   o ut p ut   w a s   357   do c um e n t s   w e r e   c o r r e c t l y   c l a s s i f i e f r o m   t h e   5 00  do c um e n t s   i n   t h e   c o l l e c t i o n .   L D A   s h o w s   a a c c ura c y   of   71. 4 %.   S t udy i n a n o t h e r   T o pi c   M o d e l i ng  t e c hni que   l i ke   CT M   i n   o r de r   t o   s e e   i t s   pe r f o r m a n c e   a nd  c o m pa ri n i t   w i t h   t h e   r e s ul t s   o f   L D A   M o de l   o n   o ur   c o l l e c t i o n   i s   a   f ut u r e   w o r t ha t   s h o ul b e   c o n s i de r e d .     A   f ur t h e r   s t udy   o n   t h e   e ff e c t   of   s t o p w o r ds   r e m o v a l   o n   t h e   r e s ul t s   o f   t h e   t o pi c   m o de l   a n m e a s u r e   t h e   a c c ur a c y   of   t h e   c l a s s i f i c a t i o n   b e fo r e   a n a f t e r   r e m o v i n t h e m   c a n   b e   do n e   a s   f ut ur e   w o r k.   A n o t h e r   i de a   i s   t o   c o l l e c t   m o r e   doc um e n t s   ( i n c r e a s i n t h e   s i z e   o f   d o c um e n t s   c o l l e c t i o n a n s t udy i n i f   t h e   s i z e   o f   t h e   c o l l e c t i o n   a f f e c t   t h e   e xt ra c t i o o f   t o pi c s   a nd  t h e   c l a s s i f i c a t i o o f   doc um e n t s   o n o t .       R EF ER EN C ES   [ 1]     A l g ha m di   R   a nd  A l f a l q i   K . ,   A   S ur v e y   o f   T o pi c   M o de l i ng   i T e xt   M i n i ng .   I nt e r n at i on al   J our n al   o f   A dv anc e d   C om put e r   Sc i e nc e   an A ppl i c at i on s ;   V o l .   6   N o .   1 ,   pp .   147 - 153 ,   201 5   [ 2]     B l e i   D   M .   P r o ba b i l i s t i c   T o pi c   M o de l s ,   C om m u ni c at i on s   of   t he   A C M ;   V o l .   55 ,   N o .   4 ,   pp .   77 - 84 , 201 2.   [ 3]     L a nda ue r   T   K ,   F o l t z   P   W   a nd  L a ha m   D .   A i nt r o duc t i o t o   l a t e nt   s e m a nt i c   a na l y s i s ,   D i s c ou r s e   P r oc e s s e s     V o l .   2 5,   pp .   259 - 28 4,   19 98.   [ 4]   D um a i s   S   T .   L a t e n t   S e m a n t i c   A na l y s i s ,   A nn ua l   R e v i e w   of   I nf or m at i on  S c i e nc e   an T e c hn ol o gy ,   V o l .   38 ,   N o .   1,   P P .   188 230 ,   200 4.     [ 5]   D e e r w e s t e r   S . ,   e t   a l . ,   I nde xi ng   by   l a t e n t   s e m a n t i c   a na l y s i s   J o ur na l   o f   t he   A m e r i c an   s o c i e t y   f o r   i nf or m a t i on   s c i e nc e ;   V o l .   41 ,   N o .   6 ,   pp .   391 - 407 ,   199 0.     [ 6]   H o f m a nn  T .   P r o ba bi l i s t i c   l a t e n t   s e m a n t i c   a na l y s i s ,   I P r oc e e di n gs   of   t he   F i f t e e nt c onf e r e nc e   on  U nc e r t a i n t y   i ar t i f i c i a l   i n t e l l i ge nc e   J ul y ,   pp .   289 - 29 6.   M o r g a K a uf m a n P ubl i s h e r s   I nc .   1999 .   [ 7]   H o f m a nn  T .   U n s up e r v i s e l e a r n i ng   by   pr o ba bi l i s t i c   l a t e nt   s e m a n t i c   a na l y s i s : ,   M ac hi ne   l e ar n i ng ,   V o l .   4 2,   N o .   1 ,   pp.   17 7 - 196,   2 001 .   [ 8]   B l e i   D   M ,   e t   a l . ,   L a t e n t   d i r i c hl e t   a l l o c a t i o n” ,   J ou r na l   of   m a c hi ne   l e ar ni ng   r e s e ar c h ;   V o l .   3 ,   p p.   99 3 - 1022 ,   2003 .     [ 9]   K l a i b,   A . F .   a n N us e r ,   M . S . ,   E v a l u a t i ng   E H R   a nd  H e a l t C a r e   i J o r da A c c o r di ng   t o   t he   I nt e r na t i o na l   H e a l t h   M e t r i c s   N e t w o r ( H M N )   F r a m e w o r a nd  S t a n da r ds :   A   C a s e   S t u dy   o f   H a ke e m ,   I E E E   A c c e s s ,   V o l .   7 ,     pp. 5 1457 - 51 465 ,   2019 .   [ 10]   D e e pi ka   N ,   M .   a nd  A na nd ,   F . J e r a l d ,   A   nov e l   t h r e e   t i e r   i nt e r ne t   o f   t hi ng s   he a l t m o ni t o r i ng   s y s t e m   I nd one s i an   J our nal   o f   E l e c t r i c a l   E ngi ne e r i ng   and   C om p ut e r   Sc i e nc e   V o l .   15 ,   N o .   2,   pp .   631 - 63 2019 .   [ 11]     S i na A dna a nd  D i w a A l a l w a D i a be t i c   a na l y t i c s :   pr o po s e c o nc e pt ua l   d a t a   m i ni ng   a ppr o a c he s   i t y pe   2   di a b e t e s   da t a s e t   I ndone s i an   J ou r na l   o f   E l e c t r i c al   E ng i ne e r i ng   an C om pu t e r   Sc i e nc e   V o l .   1 4,   N o .   1 ,   pp . 88 - 95 .   2019   [ 12]   J a n t a n a   P a ny a v a r a po r a nd   P a r a m a t e   H o r ka e w , C l a s s i f i c a t i o o f   A l z he i m e r s   D i s e a s e   i P E T   S c a ns   us i ng   M F C C   a nd  S V M .   E x pe r t   Sy s t e m s   w i t A pp l i c at i o ns ,   V o l .   5 ,   pp .   1829 - 18 3 5,   201 8.   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   17 ,   N o .   3 M a r c 20 20  :     1 5 2 4   -   1 5 3 0   1530   [ 13]   M o ha na N a j m   A bdul w a he C l a s s i f i c a t i o o f   P r o s t a t e   C a nc e r   us i ng   W a v e l e t   N e ur a l   N e t w o r k”   I nd one s i a J our nal   o f   E l e c t r i c a l   E ngi ne e r i ng   and   C om p ut e r   Sc i e nc e   V o l .   12 ,   N o .   3,   pp .   968 - 97 3,   20 18 ,   [ 14]   M o ha m m e A bdul r a z a K a hy a   C l a s s i f i c a t i o e nha nc e m e nt   o f   br e a s t   c a nc e r   hi s t o pa t ho l o g i c a l   i m a g e   u s i ng   pe na l i z e l o g i s t i c   r e g r e s s i o n”   I ndo ne s i an  J ou r na l   of   E l e c t r i c a l   E ng i ne e r i ng  an C om pu t e r   Sc i e nc e   V o l .   13 ,   N o .   1,   pp.   40 5 - 410,   2 019 .   [ 15]   A s hut o s K um a r   D ub e y ,   e t   al . ,   C o m pa r a t i v e   S t udy   o f   K - m e a ns   a nd  F uz z y   C - m e a ns   A l g o r i t hm s   o n   T h e   B r e a s t   C a nc e r   D a t a ,   V o l .   8,   N o .   1 ,   pp .   18 - 29 ,   2018 .   [ 16]   Al - Ra da i de Q   A   a nd  A l - K ha t e e S   S .   A a s s o c i a t i v e   r u l e - ba s e c l a s s i f i e r   f o r   A r a bi c   m e di c a l   t e xt ,   I nt e r n at i on al   J our nal   o f   K now l e dge   E ng i ne e r i ng   and   D a t a   M i n i ng ,   V o l .   3 ,   p p.   25 5 - 273,   20 15.   [ 17]   K a r a n i ko l a s   N   N ,   e t   al . ,   M e d i c a l   T e x t   C l a s s i f i c a t i on  ba s e on  T e x t   R e t r i e v a l   t e c hn i que s ,   M E D I N F .   1s I nt e r na t i o na l   C o nf e r e nc e   o M e di c a l   I nf o r m a t i c s   &   E ng i ne e r i ng ,   pp.   37 5 - 378.   C r a i o v a ,   R o m a ni ,   O c t o be r   -   11,   2003   [ 18]   E l be r r i c hi   Z ,   e t   a l . ,   M e d i c a l   D o c um e nt s   C l a s s i f i c a t i o B a s e o t h e   D o m a i O nt o l o gy   M e S H ,   I n t e r na t i ona l   A r ab   J our nal   o f   e - T e c h no l ogy ,   V o l .   2 ,   N o .   4,   p p.   21 0 - 215 ,   2 012 .   [ 19]   Mi h a   P a v l i ne a nd  V i l i   P o dg o r e l e c ,   T e x t   c l a s s i f i c a t i o m e t ho b a s e o s e l f - t r a i n i ng   a nd  L D A   t o pi c   m o de l s   ,   E x pe r t   Sy s t e m s   W i t A pp l i c at i on s ,   V o l .   8 0,   N o .   1,   pp .   83 - 93 ,   2017 .   [ 20]   L ubi s ,   F . F . ,   e t   al . T o pi c   di s c o v e r y   o f   o nl i ne   c o ur s e   r e v i e w s   u s i ng   L D A   w i t l e v e r a g i ng   r e v i e w s   he l pf u l ne s s I nt e r n at i on al   J o ur n al   o f   E l e c t r i c al   a nd  C om pu t e r   E n gi ne e r i n g   ( I J E C E )   V o l .   9 ,   N o .   1 ,   pp .   426 - 438 ,   201 9.   [ 21]   S ha m na ,   P . ,   e t   a l . ,   C o nt e n t   B a s e M e d i c a l   I m a g e   R e t r i e v a l ,   u s i ng   T o pi c   a nd   L oc a t i o M o de l J our nal   o f   B i om e di c al   I nf o r m a t i c s ,   2 019 .   [ 22]   J o r g e   P é r e z ,   e t   al . ,   C a r d i o l o gy   r e c o r m ul t i - l a be l   c l a s s i f i c a t i o us i ng   l a t e n t   D i r i c hl e t   A l l o c a t i o n. ,   C om pu t e r   M e t hod s   and   P r ogr am s   i n   B i om e di c i ne ,   V o l .   16 4,   pp .   111 119 ,   201 8.   [ 23]     N i ko l e nko   I   S ,   e t   al . ,   T o pi c   m o de l l i ng   f o r   qua l i t a t i v e   s t u di e s ,   J o ur na l   o f   I nf or m a t i on  S c i e nc e ,   V o l .   43 ,   N o .   1 ,   pp.   88 10 2,   20 17.   [ 24]   R a t ho r e   A   S   a nd   R oy   D .   P e r f o r m a nc e   o f   L D A   a nd  D C T   m o de l s ,   J our nal   of   I n f or m at i on  Sc i e nc e ;   V o l .   40,   N o . 3 ,   pp.   28 1 29 2,   20 14.   [ 25]   N a y a S   A ,   e t   al . ,   S ur v e y   o P r e - P r o c e s s i ng   T e c hni q ue s   f o r   T e x t   M i n i ng ,   I n t e r na t i o na l   J ou r na l   O f   E n gi ne e r i n A nd  C om put e r   Sc i e nc e ,   V o l .   5 ,   N o .   6,   p p.   16 875 - 168 79 ,   2 016 .   [ 26]   L o   R   T - W ,   e t   al . ,   A ut o m a t i c a l l y   bui l d i ng   a   s t o pw o r l i s t   f o r   a i nf o r m a t i o r e t r i e v a l   s y s t e m .   J ou r na l   on  D i gi t a l   I nf or m a t i on  M an age m e nt :   S pe c i a l   I s s ue   o t h e   5 t D ut c h - B e l g i a I n f o r m a t i o R e t r i e v a l   W o r ks ho ( D I R ) ,   V o l .   5,   pp.   17 - 24 ,   200 5.       B I O G R A P H I ES   O F   A U T H O R S       M a r y a m   S .   N us e r   i s   a a s s o c i a t e   pr o f e s s o r   a t   t he   C o m put e r   I nf o r m a t i o D e pa r t m e n t ,   F a c ul t y   o f   I n f o r m a t i o T e c hno l o gy   a nd  C o m put e r   S c i e nc e s ,   Y a r m o uk  U ni v e r s i t y ,   J o r da n.   S he   r e c e i v e he r   B S c   de g r e e   i n   C o m put e r   S c i e nc e   f r o m   Y a r m o uk  U ni v e r s i t y   i 1995 ,   M s c   de g r e e   f r o m   t h e   U ni v e r s i t y   o f   A r ka ns a s ,   U S A   i 2 002 ,   a nd  a   P hD   de g r e e   f r o m   t he   U n i v e r s i t y   o f   A r ka ns a s   i n   2004  w i t t h e   s a m e   m a j o r .   S he   w o r ke a s   a   he a o f   C I S   de pt a r t m e nt   a t   Y a r m o uk  U ni v e r s i t y   dur i ng   t he   pe r i o 20 06 - 2008 .   D r .   N us e r   h a s   s e v e r a l   p ubl i c a t i o ns   i l o c a l   a nd  i nt e r na t i o na l   j o ur na l s ,   c o nf e r e nc e s ,   a n bo o ks           E na s   A l - H o r a ni   R e c e i v e a   m a s t e r s   de g r e e   f r o m   t he   c o m put e r   I nf or m a t i o S y s t e m s   de p a r t m e n t ,   F a c ul t y   o f   I nf o r m a t i o T e c hno l o gy   a nd  C o m put e r   S c i e nc e s ,   Y a r m o uk  U ni v e r s i t y ,   J o r da n .     S he   i s   c ur r e nt l y   w o r ki ng   a t   e xt e ns y a   c o m pa n y .   H e r   p r i m a r y   a r e a s   o f   i n t e r e s t   i nc l ud e   H e a l t h   i nf o r m a t i o n   s y s t e m s   a nd   d a t a   m i ni ng .       Evaluation Warning : The document was created with Spire.PDF for Python.