I n d on e s i an   Jo u r n al   o El e c t r i c al   En gi n e e r i n g   an d   C o m p u te r   S c i e n c e   V o l .   19 ,   N o .   1 J ul y   20 20 ,   pp .   3 53 ~ 3 62   IS S N :   2502 - 4752 ,   D O I :   10. 1 1591 / i j e e c s . v 1 9 .i 1 . pp 353 - 362             353       Jou r n al   h o m e pa ge ht t p: / / i j e e c s . i a e s c or e . c om   L S A   L D A   t o p i c   m o d e l i n g   c l a ssi f i c a t i o n :   c o m p a r i s o n   st u d y     o n   E - b o o k s       S h aym aa  H .   M o h amm e d S al am   A l - au gb y   D e pa r t m e n t   o f   C o m put e r   S c i e nc e ,   F a c ul t y   of   C o m put e r   S c i e nc e   a n d   M a t h a m a t i c s ,   U n i v e r s i t y   of   K uf a ,   I r a q       A r ti c l e   I n fo     A B S TR A C T   Ar t i c l e   h i s t or y :   R e c e i v e A ug  5 ,   2019   R e v i s e N o v   20,   2019   A c c e pt e D e c   28,   2 019       W i t h   t he   r a p i d   g r o w t h   o f   i nf o r m a t i o t e c hno l o gy ,   t h e   a m o unt   o f   un s t r uc t ur e d   t e x t   da t a   i n   di g i t a l   l i br a r i e s   i s   r a pi d l y   i nc r e a s e d   a n h a s   be c o m e   a   bi g   c ha l l e ng e   i n   a na l y z i ng ,   o r g a ni z i ng   a n d   ho w   t o   c l a s s i f y   t e x t   a u t o m a t i c a l l y   i n   E - r e s e a r c r e po s i t o r y   t o   g e t   t he   b e ne f i t   f r o m   t he m   i s   t he   c o r ne r s t o ne .   T h e   m a nu a l   c a t e g o r i z a t i o n   o f   t e x t   do c um e nt s   r e q ui r e s   a   l o t   o f   f i na nc i a l ,   h um a n   r e s o ur c e s   f o r   m a na g e m e n t .   I o r de r   t o   g e t   s o ,   t o pi c   m o de l i ng   a r e   u s e d   t o   c l a s s i f y   do c um e nt s .   T h i s   p a pe r   a dd r e s s e s   a   c o m pa r i s o n   s t udy   o s c i e n t i f i c   un s t r uc t ur e d   t e x t   do c um e nt   c l a s s i f i c a t i o ( e - bo o ks )   ba s e d   o t h e   f ul l   t e xt   w h e r e   a ppl y i ng  t he   m o s t   po pul a r   t o pi c   m o de l i ng   a pp r o a c ( L D A ,   L S A )   t o   c l us t e r   t he   w o r d s   i nt o   a   s e t   o f   t o pi c s   a s   i m po r t a n t   ke y w o r ds   f o r   c l a s s i f i c a t i o n.   O ur   da t a s e t   c o ns i s t s   o f   ( 100 )   bo o ks   c o nt a i n   a bo u t   1   m i l l i o n   w o r ds   ba s e d   o f ul l   t e x t .     I t he   u s e d   t o p i c   m o de l s   ( L S A ,   L D A )   e a c w o r d   i t he   c o r pus   o f   vo c a bul a r y   i s   c o nne c t e d   w i t o ne   o r   m o r e   t o pi c s   w i t a   p r o ba bi l i t y ,   a s   e s t i m a t e d   by     t he   m o de l .   M a ny   ( L D A ,   L S A )   m o de l s   w e r e   bui l t   w i t d i f f e r e n t   v a l ue s   o f   c o he r e nc e   a nd   pi c t h e   o ne   t ha t   p r o duc e s   t he   hi g he s t   c o he r e n c e   v a l ue .     T he   r e s u l t   o f   t h i s   p a pe r   s ho w e d   t ha t   L D A   ha s   b e t t e r   r e s u l t s   t ha n   L S A   a nd    t he   be s t   r e s ul t s   o bt a i ne f r o m   t he   L D A   m e t ho w a s   ( 0. 5484 6)   o f   c o he r e nc e   v a l ue   w h e t he   num b e r   o f   t o pi c s   w a s   2 w h i l e   L S A   c o he r e nc e   v a l ue     w a s   ( 0 . 404 7) .   Ke y w or d s :   L a t e nt   D i r i c h l e t   A l l o c a t i o n   L a t e nt   S e m a n t i c   A n a l y s i s     T e xt   C l a s s i f i c a t i o n   T e xt   C l us t e r i ng    T e xt   M i n i ng   T o pi c   M o de l i n g     C opy r i gh t   ©   20 20   I n s t i t ut e   o f   A dv anc e E ng i ne e r i ng   and   S c i e nc e .     A l l   r i gh t s   r e s e r v e d .   Cor r e s pon di n g   Au t h or :   S a l a m   A l - a ugby ,   D e pa rt m e n t   o f   Co m put e S c i e n c e ,   F a c ul t y   of   C o m put e r   S c i e n c e   a n d   M a t h e m a t i c s ,   U n i v e r s i t y   of   K uf a ,   I r a q .   E m a i l :   s a l a m . a l a ugby @ uo ku f a . e du. i q       1.   I N TR O D U C TI O N     W i t h   t h e   i n c r e a s i n g   a m o u n t   o f   t e xt ua l   d a t a   t ha t   w e   f a c e   i o ur  l i v e s   e ve r y   da y   a n d   m o r e   i n f o rm a t i o b e c o m e s   a v a i l a b l e   [1]   h e n c e ,   i t   b e c o m e s   di ff i c ul t   t o   ge t   w ha t   w e   a r e   l o o ki n f o r .   S o ,   w e   n e e t o o l s   a n d   t e c hn i q ue s   t o   o rga ni z e ,   a n a l y z e ,   s e a r c h ,   d i s c ov e r   t h e   h i dde i n s i g ht s   i a n y   l a r ge   g r o up  o f   t e xt u a l   d a t a   [ 2].   T h e s e   m e t h o ds   a r e   c a l l e t o pi c   m o de l i n (u n s upe r v i s e l e a rni n g) .   T o pi c   m o de l i n i s   a   n e w   pow e r f ul   t e c hni que   fo r   a ut o m a t i c   c l a s s i f i c a t i o o f   do c um e n t ,   u n s upe r v i s e a na l y s i s   of   b i do c um e n t   g r o ups   a n d   u nde r s t a n d   v a s t   qua n t i t i e s   o f   i n f o r m a t i o i a n y   l a r ge   g r o up   f r o m   u n s t ruc t u r e d   t e xt ua l   da t a   i a d di t i o t o   s um m a ri z e   l a r ge   c o l l e c t i o n s   o f   t e xt ua l   i n f o r m a t i o [3] .   T o pi c   m o de l i ng   h a s   a   s i g n i f i c a n t   r o l e   a n d   us e f ul   i d i gi t a l   l i b r a ri e s   f o r   c r e a t i n g   a dd i t i o na l   m e t a d a t a   [ 4]   by   pr o v i di ng  a   s i m pl e   w a y   t o   a n a l y z e   h uge   v o l um e s   o f   un l a b e l e t e xt   a n d     i n di c a t e   t h e   hi dde r e l a t i o n s hi ps   b e t w e e n   i t e m s   a s   w e l l   a s     t o pi c s     e xpr e s s e i t i t l e s .   T o pi c   m o de l i n g   i s   us e fo r   p r o c e s s i n g,   a n c l a s s i fy i n t e xt   e f f i c i e n t l y   a n pe r f e c t l y .   T h e   e - s o ur c e s   c l a s s i f i c a t i o i s   v e r y   i m po r t a n t   f o r   bo t h   us e r s   o f   t h e   di g i t a l   l i b ra r y   a n t h e   l i b r a ri a n s .   F o r   l i b ra r y   us e r s ,   i t   f a c i l i t a t e s   t h e   p r o c e s s   of   a c c e s s i n   t h e   r e qui r e d   do c um e n t s   by   c o l l e c t i n g   do c um e n t s   w i t h   s i m i l a t o pi c s   t o ge t h e r,   i a ddi t i o n   t o   e na b l i n g   a c c e s s   t t h e m   t hr o ug a   n u m b e r   o f   ke y w o r ds .   O n   t h e   o t h e r   ha n d ,   t h e   c l a s s i f i c a t i o n   o f   t e xt s   h e l ps   t h e   l i b ra r i e s   t o   c l a s s i fy   t h e   n e w   do c um e n t s   w i t hi n   t h e   a pp r o p r i a t e   g r o ups   w i t h i g h e a c c ur a c y   a nd  l e s s   c o m put a t i o na l   t i m e   b y   b ui l di n g   a   c l a s s i f i c a t i o n   m o de l   w i t a   t r a i n i ng  o a   l a rge   num b e r   o f   c l a s s i f i e do c um e n t s   t ha t   c a de a l   w i t h   a n y   n e w   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   19 ,   N o .   1 J ul y   202 :     353   -   36 2   354   do c um e n t .   A s   a e xa m p l e   o f   l a r ge   e - r e po s i t o r y   l i b ra r y   i s   t h e   L i b ra r y   of   Co n g r e s s   w h i c i s   o n e   o f   t h e   l a rge s t   pa pe l i b ra r i e s   i n   t h e   w o r l d   w i t h   2 m i l l i o n   b o o ks   (N e w   W orl E n c y c l o pe di a ,   201 8)  w hi l e   G o o gl e   i s   l o o ki n fo r w a r t o   c r e a t e   t h e   l a r ge s t   d i gi t a l   l i b r a r y   o n   t h e   I n t e rn e t .   I n   c o m pa ri s o n   w i t h   20  m i l l i o n   b o o ks   i n   t h e   I n t e rn e t   A r c h i v e   p r o j e c t ,   t h e   num b e o f   bo o ks   s c a n n e a n d   a r c hi v e d   i t h e   G o o gl e   B oo pr o j e c t   r e a c t o   2 m i l l i o bo o k s   w i t h i 2 015   [5] .   G o o gl e   w a s   pl a nn e d   t o   s c a a l l   t h e   b oo ks   t ha t   ha v e   b e e n   pub l i s h e d   b e f o r e   w h i c m e a n s   a pp r o xi m a t e l y   129  m i l l i o b oo ks   [6].   T h e   o pe ra t i o n s   o f   s e a rc h i n g   a nd  a c c e s s i n t o   t h e s e   t e xt ua l   d a t a   s uc h   a s   (bo o ks ,   doc um e n t s ,   a nd  r e s e a r c h )   a r e   do n e   t hr o ug h   i n f o r m a t i o n   r e t ri e v a l   o pe r a t i o n s ,   w h i l e   t h e   e xt ra c t i o n   a nd  di s c ov e r y   of   i n f o r m a t i o f r o m   t h e s e   d a t a   r e qui r e   m o r e   c o m p l e t e c hn i que s   s uc a s   t e x t   m i n i n g .   F o e xa m p l e ,   w i t h i a c a de m i c   a r t i c l e s   t e xt   m i ni n g   c a n   p r o v i de   t h e   e xt ra c t i o o f   t h e   i nt e r e s t e i n f o r m a t i o n   f r o m   b i g   a m o unt s   of   c o n t e n t s   [7]  b y   t r a i n i ng  h o w   t o   e xt ra c t   i n f o r m a t i o n   f r o m   e a c h   a r t i c l e .   M a n y   of   t h e   r e s e a r c h e r s   us e t h e   t o pi c   m o de l i ng  m e t h o ds   t o   c l a s s i fy   t h e   u n s t ruc t u r e t e x t   o a   p r e - pr e p a r e da t a b a s e   w h e r e   t h e y   a ppl i e t h e   t o pi c   m o de l   i m a n y   f i e l ds   s uc a s   (a rt i c l e s ,   n e w s ,   t w i t t e r ,   m o v i e s   a n d   e xt r a c t i n g   i n f o r m a t i o f r o m   m e di c a l   i m a ge s ),   b ut   a   l i t t l e   o f   t h e   r e s e a r c h e r s   us e t e xt   w i t h     f ul l - c o n t e n t .     I n   t h i s   p a pe t o pi c   m o de l   a r e   us e f o r   a   c o m pa r i s o s t udy   o n   E - b o o ks   c l a s s i f i c a t i o w i t h   t h e i f ul l   c o n t e n t   o a   d a t a b a s e   c r e a t e d   by   t h e   r e s e a r c h e r s   i o r de t o   ge t   t h e   ke y w o r ds   t h a t   h e l us   i de t e r m i n i ng  t h e   s ub j e c t .       2.   R ES EA R C H   M ET H O D   R e c e n t l y ,   m a n y   r e s e a r c h e r s   h a v e   w o r ke i n   t h e   f i e l d   o f   t e xt   c l a s s i f i c a t i o n   us i n g   t o pi c   m o de l i ng  m e t h o ds .   I [8]   D e e r w e s t e r ,   e t   a l .   i nt r o duc e t h e   L D A   m o de l .   T hi s   m o de l   i s   a   p r o b a b i l i s t i c   t hr e e - l e v e l   hi e ra r c h i c a l   B a y e s i a m o de l   f o r   b i g   s e t s   o f   di s c r e t e   da t a   a n d   t r i e s   t o   o b t a i s h o rt   de s c r i p t i o n s   f o t h e   g r o up   t o   pr o c e s s   a   b i g   g r o up   o f   do c um e n t s   a n d   t o   p r o v i de   b e n e f i c i a l   i n f e r e n t i a l   m a c h i n e r y   i f i e l ds   i n v o l v i n m ul t i p l e   l e v e l s   o f   s t r uc t u r e   f o r   e s s e n t i a l   t a s ks   s uc a s   c l a s s i f i c a t i o n ,   s um m a r i z a t i o n ,   a n d   s i m i l a r i t y   a n d   j udgm e n t s   [2]   w e r e   f r o m   t h e   f i r s t   t o   e m pl oy   a   t o pi c   m o de l i n g   a pp r o a c i t h e i a n a l y s i s   of   a l l   s c i e n t i f i c   di s c i p l i n e s   us i n g   o 30, 000   a r t i c l e s   f r o m   t h e   j o urn a l   S c i e n c e .     T h e   s t udy   i n   [9]   us e   I n - h o us e   de ve l o p e s of t w a r e   f o r   i m p l e m e nt i n g   t h e   L D A   m o de l   f o r   a n a l y s i s   t i n y   do c um e n t   g r o up  ( 62   do c um e n t s o f   h e a l t h - r e l a t e i s s ue s   t o   g e t   a n   o v e r v i e w   of   t h e   k i n ds   o f   h e a l t i n f o r m a t i o n   t h a t   a r e   l a b e l e by   t h e   do c um e n t s   i t h e   r e l a t e c o r pus ,   a n a l s o   t o   ge t   a   l i s t   o f   doc um e n t s   c o n c e rn i n t   t h e   s c o pe   of   m e nt a l   h e a l t h   [ 10]   ut i l i z e t o pi c   m o de l i ng  ( L D A a n d   S V M   m e t h o ds   i c l i n i c a l   r e po r t s   f o r   a n a l y z i n g   t h e   c l a s s i f i c a t i o n   o f   CT   i m a gi n g   r e po rt s   i n t o   b i na r y   c l a s s e s   w h i c s h o w   t h e   s y s t e m   a b i l i t y   fo r   e ffe c t i ve l y   a nd   i nt e r p r e t a b l e   r e p r e s e n t a t i o o f   t h e m   a l s o   t h e   m o de l   w a s   a p p r o pri a t e   i r e duc i ng    t h e   d i m e n s i o na l .   T hi s   s t udy   s h o w e i m p r o v e m e n t   f o r   da t a s e t s   w i t e qua l   c l a s s   di s t ri b ut i o o v e r   b a s e l i n e   a pp r o a c h e s .   B e r ga m a s c hi   a n d   L .   P o   i m pl e m e n t e d   i [11]   (L a t e nt   S e m a nt i c   A l l o c a t i o (L S A ),   L a t e nt   D i r i c h l e t   A l l o c a t i o (L D A )   a n d   c o m b i n e w i t h i t h e   r e c o m m e nda t i o s y s t e m   fo r   t h e     da t a b a s e   c o n s i s t   o f   t w o     h u nd r e t h o us a nd  m o v i e s   f o r   e v a l ua t i o n   o f   s i m i l a ri t y   i n   t h e   pl o t   o f   a   v i de o   t ha t   w a s   v i e w e d,   t h e   r e s ul t s   s h o w e t h a t   L S A   i s   b e t t e t h a L D A   i s up po r t i n g   t h e   p r o po s a l   o f   l i ke   p l o t s     f o a na l y z i ng  t e xt u a l   i n f o rm a t i o n,   a s s i s t   us e r s   i n   de t e rm i ni n i n f o r m a t i o n   o n   t h e   w e b   a n d   f i n d i n g   h i dde s e m a nt i c   r e l a t i o n s h i ps   b e t w e e n   w e b   e l e m e n t s .     In  [ 12]   t h e r e   i s   a   ut i l i z a t i o o f   t h e   t e xt   m i n i ng   w i t a   p r o b a b i l i s t i c   t o pi c   m o de l   L a t e nt   D i r i c hl e t   a l l o c a t i o n   o f   t w o   W i ki pe di a   a rt i c l e s   a n us e r s ’  t w e e t s   i n   o r de r   t o   s o l v e ,   f i n d,   e xt ra c t ,   a n d   r e c o m m e n di ng  a r t i c l e s   i W i k i pe di a   a n d   a na l y s i s   t h e   T w i t t e us e r s   i nt e r e s t .   T h i s   p a pe us e d   s a m pl e   r e l a t i v e l y   s m a l l   a n d   i g n o r e   t h e   pi c t u r e s   us e r s   po s t e b ut   i t   w a s   go o t o o l   f o r   s o c i a l   a n b us i n e s s   r e s e a r c h .   I [13]   t h e   L a t e n t   D i ri c h l e t   A l l o c a t i o (L D A )   m o de l   w a s   a pp l i e d   a n d   S o f t m a x   R e gr e s s i o w i t t o pi c   v e c t o r   f o n e w s   t e xt   f o r   c l a s s i f i c a t i o n   a   r e a l   n e w s   t e xt .   T h e   r e s ul t s   o f   t e xt   c l a s s i f i c a t i o n   w e r e   s ui t a b l e   a n d   go o t o   m i n i m i z e   f e a t ur e s   d i m e n s i o n   b ut   t h e r e   a r e   s o m e   w e a kn e s s e s   i n   t ha t   m o de l   s uc h   a s   pa ra m e t e r s   us e fo r   t o pi c   m o de l   a n t h e   s i z e   o f   n e w s   t e xt   i n   a ddi t i o t h e r e   a r e   s o m e   de f i c i e n c i e s   i t h e   p r o po s e m o de l   s uc a s   t h e   s e l e c t i o o f   t h e   pa ra m e t e r s   o f   t h e   t o pi c   m o de l   a n d   s i z e   o f   n e w s   t e xt .   R a j a s un da ri   e t   a l   e m p l oy e t hr e e   d i f fe r e nt   m a c h i n e   l e a rn i n g   m e t h o ds   (N a i v e   B a y e s ,   K - N N   a n d   K - m e a n s )   a nd   t o pi c   m o de l i n g   t e c hn i q ue s   L a t e nt   D i r i c hl e t   A l l o c a t i o n   (L D A ),   L a t e n t   S e m a n t i c   A na l y s i s   (L S A     fo r     B B n e w s   da t a s e t ,   w h e r e   t o pi c   m o de l i n g   de m o n s t ra t e d   i t s   a b i l i t y   t o   de t e c t   h i dde t o pi c s   a n d   b o n b e t w e e n   w o r ds   a nd  do c um e nt s   i n   a dd i t i o n   t o   w o r b e t t e w i t m a n y   pr o b a b i l i t y   di s t ri b ut i o n s   [14] .   L D A     (L a t e nt   D i ri c h l e t   A l l o c a t i o n w a s   us e by   M o uh o ub   &   A l   H e l a l   i n   [ 15]  a n b i g ra m   f o r   o b t a i ni n g   t h e   c o r e   t o pi c of   B a n g l a   l a n gu a ge   n e w s   c o r pus   a n d   c l a s s i fy i n n e w s ,   w h e r e   i t   p r o po s e t h e   f i r s t   e v e r   t o pi c   m o de l i ng   t o o l   f o r   B a n gl a   a n t hi s   c o r e   i s   a   c ha l l e n ge   b e c a us e   t h e   r e s e a r c h   i n   B a n gl a   i s   n o t   r e pe a t e due   t o   i n s uf f i c i e n t   d a t a s e t s ,   un o r ga ni z e d   g r a m m a r u l e s .   In   [ 16]   K u r a t a   e t   a l   us e (L D A f o r   e xa m i ni n t o pi c s   i n   a   l i b r a r y   by   m a ki n a n a l y s i s   o f   1. 648    f ul l - t e xt   a rt i c l e s   f r o m   2 000   t o   2 002   a nd   (1. 087 )   a rt i c l e s   f r o m   ( 2015   t o   20 17).   T h e   a r t i c l e s   w a s   f r o m   f i v e   j o ur na l s   w h e r e   s pe c i f i e 30   i de nt i f i e t o pi c s   b a s e o t h e   hi g h e s t   10   hi g h l y   w e i gh t e d   t e r m s   f o e a c s ub j e c t ,   t i t l e ,   a n d   bo d y   o f   a r t i c l e s .   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       L SA   &   L D A   t opi c   m ode l i ng   c l as s i f i c at i on:   c om par i s on  s t udy   on  E - boo k s   ( Shay m aa   H .   M oham m e d )   355   3.   TH E O R ETI C A B A C K G R O U N D   D e a l i n g   w i t u n s t r uc t u r e d   da t a   n e e d   t o   us e   T e xt   M i n i ng,   w hi c a l s o   k n o w n   a s   t e xt   d a t a   m i ni n g   [ 17] .   T e xt   m i ni n g   i s   de f i n e a s   t h e   p r o c e s s   of   de r i v i n g   hi g h - qu a l i t y   i n f o r m a t i o f r o m   t h e   t e xt   [ 18],   o i t   r e p r e s e n t s   t h e   e xt r a c t i o o f   h i dde n ,   v a l u a b l e ,   a nd  n o n - t ri v i a l   p a t t e rn s   f ro m   u n s t r uc t u r e t e xt   do c um e n t s   [19] .   F r o m   o t h e r   po i n t   o f   v i e w   i t   c a b e   c o n s i de r e a s   a n   e x t e n s i o o f   da t a   m i ni n g   )   [20 ,   2 1]) .   T h e   t e xt   e xp l o ra t i o n   p r o c e s s   i n c l ude s   m a n y   f un c t i o n s   s uc a s   (c l e a ni n g   up   u n s t ruc t u re da t a   t o   b e   a v a i l a b l e   f o r   t e xt   a na l y t i c s ,   t e xt   c l a s s i f i c a t i o n,   t e x t   c l us t e r i n g ,   ke y w o r e xt r a c t i o n,   do c um e nt   s um m a r i z a t i o n ,   a n e nt i t y   r e l a t i o n s hi m o de l   i n   [22].   F o t h e   pu r po s e   o f   c l a s s i fy i n t e xt s ,   T e xt   Cl a s s i f i c a t i o i s   us e w h i c i s   a   s upe r v i s e m a c hi n e   l e a rni n g   t e c hn i q ue ,   a nd   c o n s i de r e d   a s   o n e   o f   t h e   b a s i c   t a s ks   i N a t u r a l   L a n g ua ge   P r o c e s s i n (N L P )   a nd   us e f o a   b r o a c a t e go r y   of   t a s ks   s uc a s   (S e n t i m e nt   A na l y s i s ,   T o pi c   D e t e c t i o n   ) .     T e xt   C l a s s i f i c a t i o i s   a   s i g n i f i c a nt   p a r t   o f   t e xt   m i n i ng  [ 23]  u t i l i z e i a   l a r ge   n u m b e r   o f   a ppl i c a t i o n s   i n   d i f f e r e n t   do m a i n s   l i ke   ( i m a ge   p r o c e s s i n g,   do c um e nt   o rga n i z a t i o n,   m e di c a l   a na l y s i s ).   T h e   go a l   o f   T e xt   Cl a s s i f i c a t i o i s   t o   a s s i g p r e de f i n e d   c a t e go r i e s   o t o   c l a s s i f y   s e n t e n c e s   o r   t e xt u a l   do c um e nt s   i o n e   o r   m o r e   de f i n e c a t e go ri e s .   F o e xa m p l e ,   n e w   a r t i c l e s   c a b e   c l a s s i f i e by   t o pi c s ,   t e xt   c l a s s i f i c a t i o c a b e   pe r f o r m e i n   t w o   v a r i o us   w a y s :   m a n u a l   a nd   a u t o m a t i c   c l a s s i f i c a t i o n.   M a n ua l   c l a s s i f i c a t i o de pe n de d   o a   hum a t o   c l a s s i fy   t e xt   (p r o v i de   qua l i t y   r e s ul t s   b ut   i t   i s   t i m e - c o n s um i ng  a nd  c o s t l y ),   w h i l e   t h e   a ut o m a t i c   c l a s s i f i c a t i o n   us e s   (m a c h i n e   l e a rni ng,   na t u ra l   l a ngua ge   p r o c e s s i n g,   a n d   a n o t h e t e c hn i q ue t o   a u t o m a t i c a l l y   c l a s s i fy   t e xt   i a   qui c ke a nd   h i g h e c o s t - e ffe c t i ve   w a y .   T h e r e   a r e   m a n y   T e xt   Cl a s s i f i c a t i o n   A l go ri t hm s   s uc a s     (K   n e a r e s t - n e i g h b o r   a l go r i t hm ,   R o c c h i o   a l go ri t hm ,   N a ï v e   B a y e s   c l a s s i f i e r ,   S uppo rt   V e c t o r   M a c h i n e s ,   de c i s i o n   t r e e ,   a nd  rul e   l e a rn i ng).   T h e   w o r i t h e   T e xt   C l a s s i f i c a t i o o f   t h e   u n s t r uc t u r e d   t e xt   i n c l ude s   t hr e e   s t a ge s   a f t e r   da t a   p r e p a r a t i o n   t h e y   a r e   t e xt   p r e p r o c e s s i n g,   t o pi c   m o de l i ng,   a n e v a l u a t i o n .       3. 1 .   Te x p r e p r o c e s s i n g     P r e p r o c e s s i n i s   t h e   f i r s t   s t e i n   t e xt   m i ni n g .   I n   t e xt   m i ni n t e c hn i que s   pr e - p r o c e s s i n a c t s   a   s i g n i f i c a n t   r o l e   [14]  f o r   t r a n s f e rr i ng  t e xt   f r o m   h u m a l a n gu a g e   t o   m a c h i n e - r e a d a b l e   f o r m a t .   T h e   p r e p r o c e s s i n s t a ge   i s   i m po rt a nt   f o r   s t ruc t u r e   t h e   u n s t r uc t u r e d   t e xt   a nd  k e e t h e   ke y w o r ds   w h i c h   a r e   us e f ul   t o   r e p r e s e n t     t h e   c a t e go r y   of   t e xt   t o pi c s   [24].   N a t u r a l   l a n g ua ge   t e xt   c a c ont a i n s   m a n y   of   w o r ds   w i t h   n o   s pe c i f i c   m e a n i ng,   s uc h   a s   p r e po s i t i o n s ,   p r o n o un s ,   e t c .   S o ,   a f t e a   t e xt   i s   o b t a i n e t h e   p r e p r o c e s s i n p r o c e s s   c o n s i s t s   o f   t w o   s t e ps .     3. 1 . 1 T e x c l e an i n g:   I o r de t o   s i m pl i fy   t h e   t e xt   d a t a ,   c l e a da t a   a nd  r e duc e   n o i s e .   T e xt   c l e a ni n g   i n c l ude s :   a)   T e xt   n o rm a l i z a t i o i n c l u de s   (c o n v e r t i n a l l   l e t t e r s   t o   l o w e r   c a s e ,   r e m o v i n a l l   n u m b e r s ,   r e m o v i n g   s i g n s ,   r e m o v i n g   s y m bo l s ,   r e m o v i n g   n o n - E n g l i s l e t t e r s ,   r e m o v i n g   p a r t i c u l a w o r ds   o l e t t e r s   w hi c h   a r e   n o t   us e f ul   [18]  a n d   r e m o v i n g   pu n c t u a t i o n   t h e y   di dn t   a dd   t o   t h e   m e a ni ng  o f   t h e   t e xt ) .   b)   T o ke n i z a t i o ( i s   t h e   p r o c e s s   of   s pl i t t i n g   t h e   t e x t   i n t o   s e n t e n c e s   a n d   t h e   s e n t e n c e s   i n t o   s m a l l e r   pi e c e s   c a l l e (t o ke n s ).   c)   R e m o v i n W o r ds   t ha t   h a v e   f e w e r   t h a 3   c h a ra c t e r s   w h i c h   do   n o t   g i v e   a i m po r t a nt   s e n s e   i a   s e n t e n c e .   d)   R e m o v i n s t o w o r ds o f r e que nt   w o r ds   s uc h   a s   t h e ,   i s ,   e t c .   t h a t   do   n o t   ha v e   s pe c i f i c   s e m a n t i c   e)   S t e m m i ng:   Is   t h e   p r o c e s s   of   m i ni m i z i n g   t h e   n u m b e o f   w o r ds   by   r e t ri e v i n g   i t s   r o o t   a n d   de l e t i n g   i n f l e c t i o t hr o ugh  d r o ppi ng  u nn e c e s s a r y   c h a ra c t e r s ,   us ua l l y   a   s uf f i x.     3. 1 . 2 .   Re - c o n fi gu r ati o n   T h i s   s t e p   i s   n e c e s s a r y   t o   c o n v e r t   t e xt   d a t a   t o   a a pp r o pri a t e   f o r m a t   f o a ut o m a t e p r o c e s s i n g . O n e   m e t h o t o   do   t h i s   i s   a   b a g   o f   w o r ds   m a t r i x   r e p r e s e nt a t i o o c a l l e d   (c o r pus )   w h e r e   e a c do c um e nt   r e p r e s e n t   a   v e c t o r   o f   t o ke n s   a n d     t h e   e nt r i e s   i n   t hi s   m a t ri x   r e p r e s e n t   t h e   num b e r   o f   t i m e s   a   w o r f o un d   i   a   do c um e n t   [14] .     3. 2 .   To p i c   m o d e l i n g   C a b e   de f i n e a s   a   t y pe   of   s t a t i s t i c a l   m o de l   [25]   f o r   d i s c ov e r i n g   h i d de t o pi c a l   pa t t e rn s   t ha t   o c c ur   i a   s e t   o f   doc um e n t s   t hr o ug m a c h i n e   l e a rni n g.   I N L P ,   t o pi c   m o de l s   a r e   ge n e r a t i v e   m o de l s   w h i c p r o v i de   a   pr o b a b i l i s t i c   f ra m e w o r c a b e   de s c ri b e a s   a   m e t h o d   f o r   f i n di ng   a   g r o up   o f   w o r ds   ([26 ,   12] ), w h e r e   t o pi c   m o de l l i n g   i s   a s s um e d   t ha t   t h e   do c um e nt   c a b e   i n t e r p r e t e d   a s   a   m i x   o f   s ub j e c t s   a n d   t ha t   e a c s ub j e c t   c o n s i s t s   of   a   s e t   o f   f r e que n t l y   oc c ur ri n g   w o r ds   a n d   c a o b t a i t h e   t o pi c s   by   l i n ki ng   w o r ds   w i t s i m i l a m e a n i ngs   a n d   di s t i ngui s b e t w e e n   t h e   us e   o f   w o r ds   w i t m ul t i p l e   m e a ni n gs   t hr o ug t h e   d i s c ov e r y   of   w o r ds   t h a t   h e l t o   de t e r m i n e   t h e   b o un da ri e s   b e t w e e n   s ub j e c t s   o r   f i n d   pa t t e rn s   o f   da t a   t h a t   c a b e   us e t o   a c hi e v e   t h e   c o n c l us i o n   a n d   t h e   f i na l   de c i s i o n.   M a n y   t e c hni que s   c a b e   us e t o   o b t a i t o pi c   m o de l s   s uc a s   (L a t e n t   S e m a n t i c   A na l y s i s   (L S A ),   P r o b a b i l i s t i c   L a t e nt   S e m a nt i c   A na l y s i s   (P L S A ),   L a t e nt   D i ri c hl e t   A l l o c a t i o (L D A ),   Co rr e l a t e T o pi c   M o de l   (CT M e t c . …).       Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   19 ,   N o .   1 J ul y   202 :     353   -   36 2   356   3. 2 . 1 .   Lat e n s e m an ti c   an al ys i s   (LS A )   I s   o n e   o f   t h e   f o un da t i o n a l   t e c hn i que s   i t o pi c   m o de l i n g   a nd  N L P   of   a n a l y z i n g   r e l a t i o n s h i ps   b e t w e e n   a   s e t   o f   doc um e n t s   a n t h e   t e r m s   t h e y   c o n t a i o r   i t   c a b e   de f i n e a s   a   m o de l   f o r   e xt r a c t i n a n r e p r e s e nt i n g   t h e   c o n t e xt u a l - us a ge   m e a ni n g   o f   w o r ds   [27]  t o   c o m put e   t h e   s i m i l a ri t y   be t w e e n   w o r ds ,   s e n t e n c e s ,   o w h o l e   do c um e n t s   [28]   t ha t   c a b e   a c h i e v e by   pr o duc i n a   s e t   o f   c on c e pt s   r e l a t e t o   t h e   do c um e nt s   a nd  t e rm s ,   w h e r e   L S A   a s s um e s   t ha t   w o r ds   w i l l   o c c ur   i n   s i m i l a r   pi e c e s   of   t e xt   i f   t h e y   h a v e   a   s i m i l a r   m e a n i ng  a nd  t h e   o b j e c t i ve   i s   r e duc i n g   d i m e n s i o f o r   c l a s s i f i c a t i o o n o i s e   r e duc i n g   t e c hni que   [8 ].   L S A   a t t e m p t s   t o   l e v e r a ge   t h e   c o n t e xt   a r o un d   t h e   w o r ds   t o   c a pt u r e   t h e   hi dde n   c o n c e pt s ,   a l s o   kn o w a s   t o pi c s   us i n g   S i ngul a r   V a l ue   D e c o m po s i t i o n   (S V D ).     3. 2 . 2   L ate n t   d i r i c h l e t   a l l o c ati o n   (LD A )     I s   a n   u n s upe r v i s e m a c h i n e   l e a rn i ng  t e c hn i q ue   us e t o   r e c o g ni z e   t h e   l a t e nt   t o pi c   s t r uc t u r e   o f   t e xt ua l   do c um e n t s   [ 29]   o r   us e i n   t h e   i n f o r m a t i o n   r e t r i e v a l   f i e l d,   do c um e n t   m o de l i n a n c l a s s i f i c a t i o n.   L D A   i s   o n e   of   t h e   m o s t   po pul a r   p r o b a b i l i s t i c   t e xt   m o de l i n g   t e c hn i que s   i n   m a c h i n e   l e a rni n g   [12] .   It   i s   l i ke   p r o b a b i l i s t i c   l a t e n t   s e m a nt i c   a na l y s i s   (pL S A ),   b ut   L D A   us e s   B a y e s   e s t i m a t i o i n s t e a d   o f   m a xi m um   l i ke l i h o o e s t i m a t i o [30].   L D A   o ve r c o m e s   a l l   t h e   d r a w b a c ks   of   L S A   a n d   P L S A   m o de l .   L D A   a s s u m e s   e a c h   do c um e n t   i n   a   c o r p us   i s   a   r a ndo m   m i x t u r e   o v e r   l a t e n t   t o pi c s ,   a n d   e a c h   l a t e n t   t o pi c   i s   c ha ra c t e ri z e d   by   a   di s t ri b ut i o o v e r   w o r ds   [ 25].   A n d   t h e s e   l a t e nt   t o pi c s   c a b e   ge n e ra t e d   f r o m   a   c o l l e c t i o n   of   do c um e n t s   b ut   t h e   p r o po r t i o o f   e a c t o pi c   i e a c h   do c um e n t   i s   di f f e r e n t .       3. 3 .   Ev al u ati o n   T o pi c   Co h e r e n c e   m e a s u r e   i s   a   m e t r i c   ge n e r a l l y   us e t o   e v a l ua t e   t o pi c   m o de l s   by   m e a s ur i ng  t h e   de g r e e   of   s e m a n t i c   s i m i l a ri t y   s c o r e s   of   t h e   w o r ds   i a   t o pi c .   T h e r e   a r e   t w o   m e a s u r e s   i t o pi c   c o h e r e n c e     (i n t ri n s i c   m e a s u r e   (U M a s s ),   e xt r i n s i c   m e a s u r e   (U CI)).   B o t m e a s u r e   c a l c ul a t e s   t h e   s u m   o f   pa i r w i s e   s c o r e s   o t h e   w o r ds .   T h e   h i g h   v a l ue   o f   t o pi c   c o h e r e n c e   s c o r e   m o de l   w i l l   r e p r e s e nt   a   go o t o pi c   m o de l   [30] .        ( ) =  ( , , ) ( , )   (1)     w h e r e   (V   i s   a   c o l l e c t i o o f   t h e   w o r de s c ri b i ng  t h e   t o pi c ,   ϵ   r e f e r s   t o   a   s m o o t h i n g   f a c t o (o r i gi na l   =   1 . ))   Int r i n s i c   M e a s u r e   i s   r e p r e s e n t e d   a s   U M a s s .   I t   m e a s u r e s   t o   c o m pa r e   a   w o r d   a l o n e   t o   t h e   p r e c e di n g   a n d   s uc c e e di n g   w o r ds   r e s pe c t i v e l y .        ( , ) = l o g ( , ) + 1 ( )     (2)     E xt ri n s i c   M e a s u r e   i s   r e p r e s e n t e d   a s   U CI.   I U CI  m e a s u r e ,   e a c h   s i ngl e   w o r i s   p a i r e w i t e v e r y   o t h e s i ngl e   w o r d.   i t   us e s   po i n t   w i s e   m ut u a l   i n f o rm a t i o (P M [30] .       ( , ) = l o g ( , ) + 1 (   ) ( )   (3)     F o r   e v a l ua t i o n ,   i n   t h i s   w o r w e   w i l l   us e   T o pi c   Co h e r e n c e   m e a s ur e   us i n g   (1) ,   (2)  a n d   (3 t o   e v a l ua t t h e   t o pi c   m o de l i ng  m e t h o ds .       4.   M ET H O D O L O G Y   In  t hi s   s e c t i o n,   w e   t ri e t o   i l l us t ra t e   t h e   m o de l s   us e i o ur  e xpe r i m e n t   a nd  t h e i m e t h o ds ,   w h i c a r e   i l l us t r a t e b e l ow :     4. 1 .   D ata  p r e p r o c e s s i n g :   T h e   da t a   a r e   c o l l e c t e f r o m   t h e   l i b r a r y   c a l l e (b oo kboo n ),   1 00  t e xt   f i l e s   s uc a s   (b o o ks   a n d   a rt i c l e s a r e   c h o s e n   ra n do m l y   w i t i t s   f ul l   c o n t e nt ,   a f t e r e a di ng   a nd   e xt ra c t i o t h e   u n s t r uc t u r e d   t e xt   f r o m   t e xt   f i l e s ,     t h e   D a t a   P r e - p r o c e s s i n g   w a s   a pp l i e d.   D a t a   p r e p r o c e s s i n c o ns i s t s   o f   s i t a s ks .     a)   N o r m a l i z a t i o I t h i s   s t e p,   t h e   t e xt   w a s   t ra n s f o r m e i n t o   a   s i ngl e   b a s i c   f o r m a t   o a   m o r e   u ni f o r m   s e que n c e   by   c o n v e r t i n g   t h e   c ha r a c t e r s   t o   l o w e r c a s e ,   de l e t i ng  a l l   n um b e r s ,   s y m bo l s ,   r e m o v i n g   pa rt i c ul a w o r ds   o l e t t e r s   w h i c a r e   n o t   us e f ul   a n d   pu n c t ua t i o s uc a s   (c o m m a s ,   quo t e s ,   q ue s t i o m a r ks ,   a n d   a po s t r o p h e s ). T hi s   s t e p   i s   i m po r t a nt   i n   o r de t o   s hri n k   t h e   s i z e   o f   t h e   v o c a b ul a r y .     b)   T o ke n i z a t i o I t hi s   s t e p,   t h e   gi v e t e xt   s pl i t t i n g   i nt o   s m a l l e p a r t s   c a l l e d   (s e nt e n c e s ),   a nd  t h e   s e n t e n c e s   i n t o   s m a l l e pi e c e s   c a l l e t o ke n s .   T o ke n s   a r e   s e pa ra t e d   by   w hi t e s pa c e   o r   l i n e   b r e a ks .   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       L SA   &   L D A   t opi c   m ode l i ng   c l as s i f i c at i on:   c om par i s on  s t udy   on  E - boo k s   ( Shay m aa   H .   M oham m e d )   357   c)   R e m o v i n W o rds   t ha t   ha v e   f e w e t ha 3   c h a ra c t e r s   w hi c d o   n o t   c a rr y   i m po r t a n t   m e a ni n g   i a   s e n t e n c e   s uc h   a s   hm , a t , a b , c c , e r, w w , z c , nm , a n d   e c t .   d)   R e m o ve   s t o w o r ds   i t h i s   s t e p,     w e   r e m o v e   a l l   E ngl i s w o r ds   o m o s t   c o m m o w o r ds   i t h e   E ngl i s l a n gu a ge   w h i c h   do e s   n o t   a dd   m uc h   m e a ni n t o   t h e   s e n t e n c e   s uc h   a s   t h e ,   h e ,   ha v e ,   a ,   o n,   i s ,   t h a t , t h e , i t   a n d   e t c .     e)   S t e m m i ng   I t hi s   s t e   t h e   w o r ds   o f   a   s e nt e n c e   a r e   c o n v e r t e   t o   i t s   n o n - c ha n g i n g   pa rt s   o r e duc t i o o w o r ds   i nt o   t h e i r   s t e m   f o r   r e duc i n g   t h e   t e xt   d a t a   a nd  i m p r o v i ng  t h e   s y s t e m   pe r f o r m a n c e ,   f o r   e xa m p l e ,     t w o r   m o r e   w o r ds   ha v e   a   c o m m o n   r o o t   s uc h   a s   (a m us i ng,   a m us e m e nt ,   a n d   a m us e t h e   s t e m   w o ul b e   a m us .   f)   B ui l di n g   Co r pus :   T o   s pe e up   t h e   p r o c e s s i n g ,   a   d i c t i o na r y   w a s   c r e a t e d   t o   a s s i g a i nt e ge ID   t o   e a c uni que   w o r k i n d   i t h e   s e t s .   A f t e t ha t ,   a   c o r p us   w a s   c r e a t e t o   t ra i t h e   t o pi c   m o de l .     I t h e   c o r pus ,   e a c do c um e n t   i s   r e p r e s e n t e d   by   a   s e que n c e   o f   n um b e o f   pa i r s .   T h e   f i r s t   di g i t   i t h e   pa i r   e xp r e s s e s   t h e   i nt e ge ID   r e f e r s   t o   a   w o r d   a nd   t h e   s e c o n d i gi t   i t h e   pa i de n o t e s   how   of t e t ha t   w o r d   o c c ur s .   F o e xa m pl e   [(1 ,   1) w h e r e   1”   r e f e r s   t o   t h e   w o r F ri e nds h i p   (f o r   e xa m pl e a n d   1”   r e f e r s   t o   t h e   n u m b e r   o f   t i m e s   t h e   w o r o c c ur s   i t h e   do c um e nt .   T hi s   s t e i s   de pe nde o n   a pp l y i n of   t h e   t w o   m e n t i o m e t h o ds   f r o m   t h e   t o pi c   m o de l i ng   m e t h o ds   (L S A ,   L D A o t h e   c o r pus   (B ui l d i n g   Co r p us p r o duc e f r o m   p r e p r o c e s s e da t a   t o   t r a i n   t h e   m o de l .   In  F i gu r e   1   a l l   t h e   s t e ps   a r e   pe r f o r m i ng   f o r   t h e   s w a m e   s e n t e n c e   i E x a m p l e .   t h e   s t e ps   1   i l l us t ra t e s     t h e   t e x t   n o rm a l i z a t i o s t e p   (c o n v e r t i n g   a l l   l e t t e r s   t o   l o w e r   c a s e o t h e   t e xt ,   w h i l e   s t e p   (2)   r e f e r s   t o   t e xt   n o rm a l i z a t i o n   s t e ps   (N u m b e r s   de l e t i n g) ,   s t e (3 r e p r e s e nt s   re m ov i n g   p a r t i c ul a w o r ds   o l e t t e r s   w hi c a r e   n o t   us e f ul   ,   t h e s t e ( 4)   i s   pu n c t u a t i o a nd   s y m bo l s   r e m o v a l ,   s t e p   (5)   r e f e r s   t o   pe r f o r m   ( T o ke n i z a t i o s t e p ) ,     s t e (6)  r e m o v e   s t o w o r ds   r e m o v i n w o r ds   t ha t   h a v e   f e w e r   t ha n   3   c h a ra c t e r s ,   t h e   l a s t   b ut   n o t   t h e   l e a s t   s t e p   (7)   a n (8)  r e f e r s   t o   S t e m m i n g   s t e f o r   t h e   s a m e   s e nt e n c e   o f   t h e   e xa m pl e .         E xam p l e 1 - F r i e nds hi p   i s   l i k e   a   c l o ud  t ha t   s ho w e r s   f r i e nds   w i t a   l o t   o f   go o dne s s ,   l o v e   a nd  l o y a l t y ,   \ t   a nd  ; @# , !   # hm {   1   1 - f r i e nd s hi i s   l i k e   a   c l o ud   t ha t   s ho w e r s   f r i e nd s   w i t a   l o t   o f   g o o dn e s s ,   l o v e   a nd   l oy a l t y ,   \ t   a nd  ; @ #, !   # hm {   - f r i e nd s hi p   i s   l i ke   a   c l o ud  t h a t   s ho w e r s   f r i e nds   w i t h   a   l o t   o f   g oo dne s s ,   l o v e   a nd   l oy a l t y , \ t   a nd   ; @# , !   # hm {   3   - f r i e nds hi p   i s   l i ke   a   c l o ud  t h a t   s ho w e r s   f r i e nds   w i t h   a   l o t   o f   g oo dne s s ,   l o v e   a nd   l oy a l t y ,   a nd   ; @# , !   # hm {   4    f r i e nds hi p   i s   l i k e   a   c l o ud  t h a t   s ho w e r s   f r i e nds   w i t h   a   l o t   o f   g oo dne s s   l o v e   a n l oy a l t y   hm      5   " f r i e nd s h i p " , " i s " , "   l i k e " , " a   " , " c l o ud" , "   t ha t " , "   s ho w e r s " , "   f r i e nd s " , "   w i t h" , "   a " , "   l o t " , "   o f " , "   g oo dn e s s " , "   l o v e " , "   a nd   " , " l oy a l t y   " , " hm ,"       " f r i e nd s h i p " , "   l i ke " , " c l o ud  " , "   s ho w e r s " , "   f r i e nd s " , "   l o t " , " g o o dn e s s " , "   l o v e   " , " l o y a l t y   " , " hm "   7     " f r i e n ds h i p " , "   l i k e " , " c l o ud  " , "   s ho w e r s " , "   f r i e nds " , "   l o t " , " g oo dn e s s " , "   l o v e   " , " l oy a l t y   "      " f r i e nd s h i p" , "   l i ke " , " c l o ud" , " s ho w e r " , "   f r i e nd   " , "   l o t " , " g oo d" , "   l o v e " , " l oy a l t i "     F i gu r e   1 .   T h e   b a s i c   s t e ps   o f   t e xt   p r e p r o c e s s i n g       4. 2 .   To p i c   m o d e l i n g   A s   i l l us t ra t e b e fo r e   t h e r e   m a n y   t o pi c   m o de l l i n g   t e c hni que s ,   i n   t h i s   pa pe r   t h e   r e s e a r c h e r s   c o m pa r e   t w o   t e c h n i q ue s   a s   f o l l o w i n gs :   a)   L a t e nt   S e m a nt i c   A n a l y s i s   (L S A i s   a   m o de l   fo r   f i n d i n hi dde n   c o n c e pt s ,   s e l e c t i ng  a nd  de s c r i b i n g     t h e   c o n t e xt ua l - us a ge   m e a ni n o f   w o r ds   a pp l i e t o   a   l a r ge   c o r pus   o f   doc um e n t s   d a t a .   L S A   us e s   a   b a g   of  t h e   w o r (Y ) ,   w h e r e   r o w s   r e p r e s e n t   t e rm s   a n d   c o l um n s   r e pr e s e nt   do c um e n t s   a nd   t h e   v a l ue   o f   a   c e l l   r e p r e s e n t s   (o c c urr e n c e   o f   t e rm s   i a   do c um e n t ) .   L S A   l e a rn s   t o pi c s   by   m a ki n g   a   m a t r i x   de c o m po s i t i o o a   m a t r i x   o f   t h e   do c um e n t   t e r m   us i ng  S i n gu l a V a l ue   D e c o m po s i t i o n   (S V D ) .     b)   L a t e nt   D i ri c hl e t   A l l o c a t i o n   (L D A i s   a   ge n e r a t i v e   pr o b a b i l i s t i c   t o pi c   m o de l   fo r   a   p r e s e n t i ng  c o r pus   a s s um e s   t h a t   do c um e nt s   a r e   a ra n do m   m i x t u r e   o f   l a t e n t   t o pi c s ,   w h e r e   e a c t o pi c   i s   di s t i n gu i s h e b y   a   di s t r i b ut i o n   o f   w o r ds .   L D A   de pe n ds   o i m po rt a nt   p a ra m e t e r s   t ha t   m us t   b e   c o n s i de r e d   w h e a ppl y i n g   i t :   1.   N um b e r   o f   t o pi c s   t o   o pt i m i z e   r e s ul t s   by   kn o w i n g   a o pt i m u m   a m o u n t   o f   t o pi c s .   2.   B e t a :   r e p r e s e nt s   a   t o pi c   w o r de n s i t y   (T o pi c   c o n c e n t r a t i o n ),   i t   a s s um e s   t ha t   t h e   t o pi c   i s   m a de   o f   up   m o s t   o f   t h e   w o r ds   a n d   r e s ul t   i a   m o r e   s pe c i f i c   w o r di s t ri b ut i o pe t o pi c .   A   hi g b e t a   v a l ue   m e a n s   e a c h   t o pi c   i s   m o r e   l i ke l y   t o   c o n t a i n   a   s pe c i f i c   w o r m i x   a n d   i n   p r a c t i c e ,   t ha t   l e a ds   t o   t o pi c s   b e i n m o r e   a l i ke   i t e rm s   o f   w h a t   w o r ds   t h e y   i n c l ude   a n d   t h e   l o w e r   v a l ue   o f   be t a ,   m e a n s   t h e y   a r e   c o m po s e of   fe w   w o r ds .   3.   A l p h a   r e p r e s e nt s   a   do c um e nt   t o pi c   de n s i t y   (D oc um e n t   c o n c e nt r a t i o n).   A   hi g h   a l p ha   v a l ue   po i n t   t o   t h a t   e ve r y   do c um e n t   i s   t e n d   t o   c o n t a i a   m i x t u r e   f r o m   t h e   m o s t   o f   t h e   t o pi c s ,   a nd  n o t   a n y   s i n gl e   t o pi c   e s pe c i a l l y .   T h e   l o w e r   t h e   v a l ue   o f   a l p ha ,   m e a n s   t h a t   t h e   do c um e nt s   c o n t a i f e w e r   t o pi c s .     Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   19 ,   N o .   1 J ul y   202 :     353   -   36 2   358   4. 3 .   Ev al u ati o n   M a n y   m e a s ur e m e n t s   a r e   u t i l i z e f o r   e v a l ua t i n g   pe r f o r m a n c e   pr o c e s s   of   t h e   t o pi c   m o de l   m e t h o ds   s uc a s   T o pi c   Co h e r e n c e   m e a s u r e .   I t hi s   w o r T o pi c   Co h e r e n c e   m e a s u r e   a r e   us e us i ng  (1),   (2 a n d   (3)   ( a s   s h o w n   i n   a b ov e   t o   e v a l ua t e   t h e   t o pi c   m o de l i ng  m e t h o ds .       5.   R ES U LTS   A N D   D I S C U S S I O N   T h e   e xpe ri m e nt   w a s   pe r f o r m e o n   t h e   s a m p l e   a   s pe c i a l   d a t a b a s e   c o n s i s t i ng  o f   100  ra n do m l y   s e l e c t e d   bo o k s .   T h e   p r e - p r o c e s s i n o pe ra t i o n s   w e r e   pe r f o r m e d ,   w hi c i n c l ude c l e a ni n g   t h e   t e xt   f r o m   t h e   c h a ra c t e r s   a n n u m b e r s ,   r e m o v i n t h e   s t o s i g n s   a n s pe c i a l   s y m b o l s ,   r e m o v i n t h e   i n s i g n i f i c a n t   w o r ds ,   t h e n   re c o n f i gu r a t i o d a t a   f o r   r e p r e s e nt a t i o u n s t r uc t u r e d   da t a   i n   a   b a o f   w o r ds   (c o r pus   ) .   T h e   s e c o n s t e i s   t r a i n i ng  t h e   da t a   by   us i ng  t w o   m e t h o ds   f r o m   t o pi c   m o de l i n g   (L S A ,   L D A m e t h o w i t di f f e r e n t   n u m b e r   o f   t o pi c s     (10,   15,   20)   i o r de t o   s e e   w h i c o n e   w i l l   gi v e   t h e   b e s t   pe r f o r m a n c e   f r o m   t h e s e   t w o   m e t h o ds   w i t o ur  da t a b a s e .   T h e   ke y w o r ds   f o e a c t o pi c   a r e   us e a s   f e a t u r e s   t o   c l a s s i fy   t h e   b oo ks .   T h e   n e xt   s t e p   i s   us i ng   t o pi c   c o h e r e n c e   m e a s u r e s   (U m a a s ,   U CI)  t o   e v a l ua t e   t h e   t o pi c   m o de l l i n g   m e t ho ds .   D ur i n g   o ur  w o r k,   w e   go t   t h e   f o l l ow i n g   r e s ul t s .   T h e   r e s ul t s   s h o w s   t ha t   t h e   n u m b e r   o f   w o r ds   i   t h e   do c um e nt s   ha v e   gr e a t l y   r e duc e by   up  t o   a pp r o xi m a t e l y   80%  i t h e   p r e - p r o c e s s i n g   a nd  r e t a i ni n g   t h e   de s i r e w o r ds .   A s   s h o w n   b e l ow   i n   T a b l e   1   a nd  F i gu r e   2 .                                                               .   In  T a b l e   1   f o e xa m pl e ,   t h e   num b e o f   w o r ds   w a s   ( 64504)   i t h e   do c um e nt   (N o .   3)   a n d   a f t e a ppl y i n g   t h e   s t e o f   r e m o v i n g   t h e   n u m b e r s   a nd  s y m bo l s ,   t h e   w o r ds   w e r e   r e duc e by   a bo ut   1%   a n d   a   n u m b e r   o f   w o r ds   b e c a m e   (62986) .   A f t e r   t h e   s t e p   o f   r e m o v i n ( pu n c t u a t i o n     &   s t o w o r ds ),   t h e   n um b e o f   w o r ds   w a s   r e duc e by   a bo ut   (40%)    w h e r e   t h e   n um b e r   o f   w o r ds   i n   t h e   do c um e nt   b e c a m e   (34124)  a n a f t e r   c o m b i n i ng  dup l i c a t e s   fo r   r e pe t i t i v e   w o r ds   i o n e   do c um e nt ,   t h e   num b e r   o f   w o r ds   b e c a m e   a b o ut   (10043)   t h e   w o r ds   r e duc e up   t o   (80%)  w h e r e   t h e   t i m e   o f   e xe c ut i o n   i s   (15 88. 006666 89872 74  s e c o n ds ).   T h i s   i s   v e r y   n e c e s s a r y   t o   r e duc e     t h e   n u m b e r   o f   di m e n s i o n s   i n   da t a s e t   w hi c us e f o r   t ra i ni ng  t h e   d a t a   w h e r e   t h e   n u m b e r   o f   fe a t u r e s   b e c a m e   a b o ut   67903  f o r   a l l   do c um e n t s .       T a b l e   1 .   R e s ul t s   o f   pr e - p r o c e s s i n f o r   ( 5)  f i l e s   (b o o ks )   f r o m   (100)f i l e s   D o c s   N u m b e o w o rd s   A f t e r   r e m o v i n g   n u m b e r s   &   c h a ra c t e r s   A f t e r   r e m o v e   P u n c t u a t i o n     &   s t o p   w o rd s   A f t e c o m b i n i n g   d u p l i c a t e s   f o r   re p t i t i v e   w o r d s   1   4 0 4 5 5   4 0 2 5 6   2 4 9 6 8   8672   2   323 88   3 2 1 2 7   2 0 3 5 2   7394   3   6 4 5 0 4   6 2 9 8 6   3 4 1 2 4   1 0 0 4 3   4   8378   8152   8046   3259   5   3 2 4 0 1   3 1 9 0 2   1 9 2 9 5   6108   S o u r c e :   O u o w n   e v a l u a t i o n .         S o u r c e :   O u o w n   e v a l u a t i o n .     F i gu r e   2 .   G ra p o f   pr e - p r o c e s s i n s t e f o r   s a m p l e   o f   t h e   r e s u l t s       Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       L SA   &   L D A   t opi c   m ode l i ng   c l as s i f i c at i on:   c om par i s on  s t udy   on  E - boo k s   ( Shay m aa   H .   M oham m e d )   359   (Co r pus ,   di c t i o n a r y ,   a n d   a   num b e o f   t o pi c s a r e   n e e de t o   t ra i t h e   (L D A   a nd   L S A m o de l ,   w h e r e   e a c w o r i t h e   c o r pus   o f   vo c a b ul a r y   i s   t h e c o nn e c t e d   w i t o n e   o m o r e   t o pi c s   w i t a   p r o b a b i l i t y ,   a s   e s t i m a t e by   t h e   m o de l .   (L D A ,   L S A m o de l   i s   b ui l t   w i t h   (1 0,   15 ,   20)   v a ri o us   t o pi c s   w h e r e   e a c h   t o pi c   i s   a   m i xt u r e   o ke y w o r ds   a n d   e a c h   ke y w o r c o n t ri b ut e s   a   c e r t a i w e i ght   t o   t h e   t o pi c .   T h e   i n pu t   t o   t o pi c   m o de l   (L D A ,   L S A i s   t h e   n u m b e r   o f   t opi c s   t h a t   h a v e   t o   b e   di s c ove r e (k)  a nd     t h e   (do c um e n t - w o r m a t ri x)  w hi c h   ha s   t h e   h i s t o g r a m s   o f   w o r ds   (w o r c o un t )   p r e s e nt e i e a c h   do c um e nt .     T h e   di m e n s i o n s   o f   t h i s   m a t ri a r e   (D ,   W i . e .   a   num b e r   o f   do c um e n t s   a   num b e r   o f   t e r m s   i n   v o c a b ul a r y .     T h e   o ut put   o f   t o pi c   m o de l i ng  (L D A ,   L S A a l go ri t hm s   i s   t w o   m a t r i c e s   (do c um e n t   -   t o pi c   m a t ri x)   a nd  a     (t o pi c   - w o r d   m a t ri x) .   D o c um e nt - T o pi c   m a t r i i s   o f   (D ,   K )   di m e n s i o n s   w h e r e   D   i s   a   n u m b e r   o f   do c um e n t s   a n d   K   i s   t h e   n u m b e r   o f   t o pi c s   i n   t h e   v oc a b ul a r y   pr e s e n t   t h e   p r o b a b i l i t y   di s t r i b ut i o n   o f   t h e   t o pi c s   b e i n i n     t h e   do c um e n t s   a r e   s h o w n   b e l ow   i n   T a b l e   2 .   S i m i l a rl y ,   T o pi c - W o r ds   m a t r i x   i s   o f   (K ,   W w h e r e   W   i s   t h e   n u m b e r   of   w o r ds   i t h e   v o c a b ul a r y   pr e s e nt   t h e   p r o b a b i l i t y   di s t r i b ut i o n   o f   w o r ds   t ha t   t h e y   h a v e   b e e n   ge n e r a t e d   f r o m   t h o s e   t o pi c s   a r e   s h o w n   b e l ow   i n   T a b l e   3 ,   a n T a b l e   4 ,   r e s pe c t i v e l y .   T o pi c   m o de l s   l e a rn   t o pi c s   t y pi c a l l y   a n r e p r e s e n t e a s   c o l l e c t i o n s   o f   i m po r t a n t   w o r ds   a u t o m a t i c a l l y   f ro m   unl a b e l e do c um e n t s   i n   a u n s upe r v i s e w a y   fo r   ge t t i n g   t h e   m i xt u r e   o f   a l i ke   w o r ds   t o ge t h e r,   t h us   m o l di ng  t h e   t o pi c .   T h e   m a i n   go a l   o f   a   t o pi c   m o de l l i n g   i s   t o   p r o v i de   i n t e r p r e t a b l e   do c um e n t   r e p r e s e nt a t i o n s   t ha t   c a b e   us e t o   e xpl o r e   t h e   t o pi c s   i n   a   g r o up   o f   unl a b e l e do c um e n t s .   T a b l e   2   s h o w s   a n   e x a m p l e   o f   a i nt e r p r e t a b l e   do c um e n t   r e p r e s e n t a t i o n   (E a c do c um e n t   i s   m a de   up   o f   s o m e   t o pi c   d i s t r i b ut i o n )   f o r   e xa m p l e   do c um e nt   (0)   i s   (0. 016 061 8)   o f   t o pi c   (6),   (0 . 97626 6)  o f   t o pi c   (8),   a n (0)  t o   ot h e t o pi c s   a n d   i T a b l e   i t   i s   n o t e   a l s o   r e s ul t s   i n   do c um e nt s   v e c t o r s   c o n s i s t   o f   a   l o t   o f   z e r o s ,   t h a t   m e a n s   t he r e   a r e   o n l y   a   l i m i t e n u m b e r   o f   t o pi c s   o c c ur   pe r   do c um e n t   a nd  t ha t   c o rr e s po n ds   w i t h   t h e   c o n c e pt   t ha t   do c um e nt s   t y pi c a l l y   o n l y   s pe a a r o u n d   a   l i m i t e n u m b e r   of   t o pi c s .   T h e s e   r e s ul t s   h e l i i m p r o v i n g   t h e   hum a i nt e rpr e t a b i l i t y   fo r   do c um e n t s   v e c t o r s .   F o r   e xa m p l e   do c um e n t   (1 1)   i s   (0 . 9999 47 )   o f   t h e   t o pi c   (2 a n d   ( z e r o s o f   a l l   o t h e t o pi c s   f r o m   t ha t   w e   c a c o n c l ude   t ha t   t o pi c   (2)  i s   a s s i g n e d   f o r   do c um e nt   ( 11).   T a b l e s   3,   a n d   4   s h o w   s a m pl e   o f   c a l c ul a t i o o f   10  t o pi c s   by   us i n L S A   a nd  L D A   m o de l s   a s   w e l l   a s   t h e   w o r ds   r e l a t e t o   e a c t o pi c   w h e r e   t o t e t e r m s   a r e   l i s t e f or   e a c t o pi c .   E a c h   t o pi c   i s   c o nn e c t e w i t o n e   o m o r e   do c um e n t s   i t h e   g r o up   w i t a   gi v e m i xi ng   p r o po r t i o b a s e o n   t h e   o c c urr e n c e s   o f   w o r ds   pe r   do c um e n t .   T h e   w o r ds   i o n e   t o pi c   t e nd  t o   b e   s i m i l a r   f o r   e x a m pl e   i T a b l e   4   i n   t o pi c   i t   i s   n o t e t ha t     t h e   w o r ds   (d r ug ,   a ge nt ,   ra t e ,   c o n c e n t ra t e ,   us e ,   r e a c t i o n,   a n d o s e t e n t o   be   s i m i l a r   a nd  t h e   l a b e l   by   e a c h   t o pi c   m a y   b e   gi v e n   by   t h e   a n a l y s t   v i a   e v a l ua t i n g   t h e   w o r ds   a l l o t t e t o   t h e   p a r t i c ul a t o pi c   f o r   e xa m pl e   i T a b l e   4   t o pi c   c a b e   a s s i g n e t o   t h e   m e di c i n e   b a s e o e v a l ua t i n g   t h e   w o r ds .   In  t o pi c   m o de l   (L D A ,   L S A m o de l s ,   e a c h   do c um e nt   i s   a   c o l l e c t i o n   o f   m ul t i p l e   t o pi c s .   B ut ,   t y pi c a l l y   o n l y   o n e   of   t h e   t o pi c s   i s   do m i na n t .   T a b l e   5   a n d   T a b l e   6:   s how s   a s s i gni n t h e   do c um e nt   t o   t h e   t o pi c   t ha t   h a s     t h e   hi g h e s t   w e i ght   i n   t h a t   do c um e nt .   I T a b l e   t h e r e   i s   a   n u m b e r   o f   t o pi c s   d o m i n a nt s   o n   m o r e   t h a o n e   do c um e n t   f o r   e xa m p l e   t o pi c   w a s   t h e   do m i na n t   t o pi c   o d o c um e n t   n u m b e r   ( 1,   6,   7) ,   w hi l e   i n   T a b l e   6   i t   i s   n o t e t h a t   t h e   e x i s t e n c e   o f   a   s i n g l e   t o pi c   do m i n a nt   i m o re   t h a o n e   do c um e nt   a pp r o xi m a t e   ( 14   do c f o r   e xa m pl e   t o pi c   0   w a s   do m i n a nt   o n   do c um e n t   n u m b e r   (1 ,   2,   3,   4,   5,   6,   7,   9 ,… ).       T a b l e   2 .   T o pi c s   D i s t r i b ut i o o ve r   e a c h   do c um e n t   (10   f r o m 10 0)  do c s ,   n u m b e r   o f   t o pi c   = 10   us i n g   L D A   D o c   i n d e x   T o p i c 0   T o p i c 1   T o p i c 2   T o p i c 3   T o p i c   4   T o p i c   5   T o p i c 6   T o p i c   7   T o p i c   8   T o p i c 9   0   0   0   0   0   0   0   0 . 0 1 6 0 6 1 8   0   0 . 9 7 6 2 7 3   0   1   0   0   0 . 2 0 1 2 4 5   0   0   0   0   0 . 7 9 4 2 0 9   0   0   2   0   0   0 . 1 2 5 1 4   0 . 6 1 0 7 2 2   0   0 . 0 2 1 7 9 7 7   0 . 0 2 1 4 5 9 6   0   0 . 1 9 1 8 3 3   0   3   0   0   0   0   0 . 9 9 9 9 2 5   0   0   0   0   0   4   0 . 0 1 7 6 4 5 2   0   0 . 0 2 4 1 4 1   0 . 7 9 6 0 3 3   0   0 . 1 1 1 0 2 3   0   0   0 . 0 5 1 0 8 8 7   0   5   0   0   0 . 9 8 5 2 1   0   0   0   0 . 0 1 4 7 3 7 5   0   0   0   6   0   0   0   0   0 . 0 1 5 3 8 7 7   0   0   0 . 9 9 5 4 7 6   0   0   7   0 . 0 2 0 7 1 2 9   0   0 . 0 9 2 4 7 1 5   0   0   0   0   0 . 8 7 1 3 6 9   0   0   8   0   0   0 . 9 9 9 9 4 5   0   0 . 6 6 4 8 8 1   0   0   0   0   0   9   0   0   0 . 0 1 8 0 4 5 7   0   0   0   0   0 . 2 9 0 7 5 8   0 . 0 1 8 7 3 2 2   0   S o u r c e :   O u r e s u l t   u s i n g   s p y d e (p y t h o n   3 . 6 )       T a b l e   3 .   T o pi c   t e r m s   w i t a   p r o b a b i l i t y   (W i t h   L D A   t r a i n i ng)  of   a   10   t o pi c   r u o n   do c um e nt   s e t     (100  do c um e n t s )   S o u r c e :   O u o w n   e v a l u a t i o n .   T o p i c   0   0 . 0 1 7 * " u s e "   +   0 . 0 0 9 * " i m a g e "   +   0 . 0 0 9 * " o p e r "   +   0 . 0 0 8 * " s y s t e m "   +   0 . 0 0 8 * " e x a m p l e "   +   0 . 0 0 7 * " o n e "   +   0 . 0 0 7 * " s i g n a l "   +   0 . 0 0 7 * " v a l u e "   +   0 . 0 0 7 * " n u m b e r"   +   0 . 0 0 6 * " r e l a t "   T o p i c   1   0 . 0 0 9 * " u s e "   +   0 . 0 0 6 * " s e a rc h "   +   0 . 0 0 6 * " n u m b e r "   +   0 . 0 0 6 * " a g e n t "   +   0 . 0 0 6 * " e x a m p l e "   +   0 . 0 0 5 * " d a t a "   +   0 . 0 0 5 * " r e s e a r c h "   +   0 . 0 0 5 * " k n o w l e d g "   +   0 . 0 0 5 * " s e t "   +   0 . 0 0 5 * " v a l u e "   T o p i c   9   0 . 0 1 4 * " u s e "   +   0 . 0 0 6 * " s e n t e n c "   +   0 . 0 0 6 * " w o r d "   +   0 . 0 0 6 * " e n g l i s h "   +   0 . 0 0 5 * " o n e "   +   0 . 0 0 5 * " s e e "   +   0 . 0 0 5 * " t i m e "   +   0 . 0 0 5 * " m e a n "   +   0 . 0 0 4 * " fo l l o w "   +   0 . 0 0 4 * " a rt i c l "   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   19 ,   N o .   1 J ul y   202 :     353   -   36 2   360   T a b l e   4 .   T o pi c   t e r m s   w i t a   p r o b a b i l i t y   (W i t h   L S A   t r a i n i ng)  of   a   10   t o pi c   r u o n   do c um e nt   s e t     (100  do c um e n t s )   S o u r c e :   O u o w n   e v a l u a t i o n .       T a b l e   5 .   D o m i na n t   t o pi c   t h a t   ha s   t h e   hi g h e s t   pe r c e nt a ge   c o n t ri b ut i o i t ha t   do c um e nt   (L D A )   S o u r c e :   O u o w n   e v a l u a t i o n .       T a b l e   6 .   D o m i na n t   t o pi c   t h a t   ha s   t h e   hi g h e s t   pe r c e nt a ge   c o n t ri b ut i o i t ha t   do c um e nt   (L S A )   D o c   i n d e x   D o m i n a n t   _ t o p i c   T o p i c _ p r e c   K e y w o r d s   0   0   4 4 7 . 2 7 3   u s e ,   o n e ,   m a rk e t ,   t i m e ,   p ro d u c t ,   e x a m p l e   , a l s o ,   t w o ,   f u n c t i o n ,   s y s t e m   1   0   3 1 8 . 6 8 6   u s e ,   o n e ,   m a rk e t ,   t i m e ,   p ro d u c t ,   e x a m p l e   , a l s o ,   t w o ,   f u n c t i o n ,   s y s t e m   2   0   4 1 4 . 5 6 5   u s e ,   o n e ,   m a rk e t ,   t i m e ,   p ro d u c t ,   e x a m p l e   , a l s o ,   t w o ,   f u n c t i o n ,   s y s t e m   3   0   9 9 . 7 9 4 6   u s e ,   o n e ,   m a rk e t ,   t i m e ,   p ro d u c t ,   e x a m p l e   , a l s o ,   t w o ,   f u n c t i o n ,   s y s t e m   4   0   1 3 4 . 5 0 6   u s e ,   o n e ,   m a rk e t ,   t i m e ,   p ro d u c t ,   e x a m p l e   , a l s o ,   t w o ,   f u n c t i o n ,   s y s t e m   5   0   5 7 5 . 0 5 3   u s e ,   o n e ,   m a rk e t ,   t i m e ,   p ro d u c t ,   e x a m p l e   , a l s o ,   t w o ,   f u n c t i o n ,   s y s t e m   6   0   4 5 3 . 9 5 5   u s e ,   o n e ,   m a rk e t ,   t i m e ,   p ro d u c t ,   e x a m p l e   , a l s o ,   t w o ,   f u n c t i o n ,   s y s t e m   7   0   2 1 8 . 5 8 1   u s e ,   o n e ,   m a rk e t ,   t i m e ,   p ro d u c t ,   e x a m p l e   , a l s o ,   t w o ,   f u n c t i o n ,   s y s t e m   8   0   6 2 3 . 6   d ru g ,   a g e n t ,   r a t e ,   c o n c e n t r,   u s e ,   c o n t ra c t ,   s e a r c h ,   k n o w l e d g e ,   r e a c t i o n ,   d o s e   9   0   2 7 1 . 1 6 8   u s e ,   o n e ,   m a rk e t ,   t i m e ,   p ro d u c t ,   e x a m p l e ,   a l s o ,   t w o ,   f u n c t i o n ,   s y s t e m   S o u r c e :   O u r e s u l t   u s i n g   s p y d e (p y t h o n   3 . 6 )       T o pi c   m o de l s   de l i v e r   n o   gua ra nt y   o n   t h e   i nt e r p r e t a b i l i t y   of   t h e i r   o ut p ut ,   t h e r e fo r   t o pi c   c o h e r e n c e   m e a s u r e s   w a s   us e t o   t h e   e v a l ua t i o o f   (L D A ,   L S A ).   T h e   U m a s s   a nd   U CL   t o pi c   c o h e r e n c e s   c a pt u r e   t h e   o pt i m a l   n u m b e r   o f   t o pi c s   by   gi v i n t h e   i n t e r p r e t a b i l i t y   of   t h e s e   t o pi c s   a   n u m b e r   c a l l e c o h e r e n c e   s c o r e .   In  t hi s   w o r k,   m a n y   (L D A ,   L S A m o de l s   w e r e   b ui l t   w i t h   di f f e r e n t   v a l ue s   of   t h e   n u m b e r   o f   t o pi c s   (k)   a nd  pi c t h e   o n e   t ha t   gi v e s   t h e   hi g h e s t   c o h e r e n c e   v a l ue s   a s   s h o w n   b e l ow   i n   T a b l e   7 .   T a b l e   7   s h o w s   t ha t   t h e   c o h e r e n c e   s c o r e   (U CL of   L D A   i s   i nc r e a s e w i t h   t h e   i n c r e a s i ng  o f   t h e   t o pi c   n u m b e r s   f r o m   ( 0. 5 040)  t o   (0. 5 4846) ,   w i t a   de c l i n e   o f   t h e   v a l ue   o f   Co h e r e n c e   U M a s s   S c o r e   of   (L D A f r o m     ( - 0. 53 31)  t o   ( - 0 . 5756)   a s   c o m pa r e t o   L S A   t h e   n u m b e r   o f   t o pi c s   i n c r e a s e s ,   w hi l e   t h e   v a l ue   o f   a   s c a l e   Co h e r e n c e   U CI  S c o r e   w i l l   de c r e a s e   f r o m   (0. 4806)   t o   (0. 40 47)  w i t h   a   de c l i n e   o f   t h e   v a l ue   of   s c a l e   Co h e r e n c e   U M a s s   S c o r e   of   L S A   f r o m   ( - 0. 533 9)  t o   ( - 0. 7 778) .   I t   i s   n o t i c e t ha t   t h e   b e s t   pe r f o r m a n c e   f o r   L D A   a c c o r di n g   t o   t h e   Co h e r e n c e   U CI  s c a l e   w a s   w h e n   us i n g   a   num b e o f   t o pi c s   w a s   20   a nd  t h e   v a l ue   r e a c h e d   t o   (0. 5 4846)   w hi l e   t h e   b e s t   pe r f o r m a n c e   t o   L S A   a c c o r di n g   t o   t h e   Co h e r e n c e   U CI  s c a l e   w a s   w h e t h e   num b e o f   t o pi c s   w a s   10   a nd     t h e   v a l ue   r e a c h e t o   (0. 4806) .   O n   t h e   o t h e r   ha n d,   t h e   b e s t   pe r f o r m a n c e   o f   L D A   a n d   L S A   b a s e o n     t h e   Co h e r e n c e   U m a s s   s c a l e   w a s   w h e t h e   n u m b e r   o f   t o pi c s   w a s   20   t h e   v a l ue   w a s   ( - 0. 5756)   a n d   ( - 0 . 7778)   t L D A   a n d   L S A   r e s pe c t i v e l y .   A s   a   c o n c l us i o n ,   t h e   c o h e r e n c e   s c o r e   U CL o f   L D A   i s   hi g h e t ha o f   L S A   w h e i n c r e a s i ng   t h e   n u m b e o f   t o pi c s   w h i l e   Co h e r e n c e   U M a s s   S c o re   (L S A i s   de c l i ni n g   m o r e   t ha Co h e r e n c e   U M a s s   S c o r e   (L D A ). T o pi c   c o h e r e n c e   gi v e s   a   c o n v e n i e n t   m e a s u r e   t o   e s t i m a t e   h o w   go o a   gi v e   t o pi c   m o de l   i s .   B a s e o n   t h e   a b ov e   r e s ul t s ,   t o pi c   c o h e r e n c e   s c o r e ,   i n   pa rt i c ul a r ,   h a s   b e e n   m o r e   h e l pf ul .   T h e   b e s t   c o h e r e n c e   s c o r e   w a s   ob t a i n e f r o m   L D A .   F i gu r e   3   ( a i l l us t ra t e s   T h e   c o h e r e n c e   U CI  s c a l e   v a l ue   w h e n u m b e r   o f   t o pi c   10   f o r   (L D A ,   L S A ),   F i gu r e   (b r e f e r s   t o   T h e   c o h e r e n c e   U CI  s c a l e   v a l ue   w he n   num b e r   o f   t o pi c   15  f o r   (L D A ,   L S A ),   w hi l e     F i gu r e   3   (c r e f e r s   T h e   c o h e r e n c e   U CI  s c a l e   v a l ue   w h e n   n u m b e r   o f   t o pi c   20  f o r   (L D A ,   L S A ).     T o p i c   0   0 . 3 1 6 * " u s e "   +   0 . 2 0 0 * " o n e "   +   0 . 1 4 4 * " m a rk e t "   +   0 . 1 3 7 * " t i m e "   +   0 . 1 2 6 * " p ro d u c t "   +   0 . 1 1 9 * " e x a m p l e "   +   0 . 1 1 9 * " a l s o "   +   0 . 1 1 2 * " t w o "   +   0 . 1 0 2 * " f u n c t i o n "   +   0 . 0 9 8 * " s y s t e m "   T o p i c   1   - 0 . 5 0 4 * " e n g "   +   - 0 . 4 7 6 * " c h e m "   +   - 0 . 2 8 5 * " d i e "   +   0 . 2 3 9 * " m a rk e t "   +   - 0 . 2 1 0 * " d e r"   +   0 . 1 5 1 * " b a n k "   +   - 0 . 1 4 8 * " d a "   +   - 0 . 1 1 8 * " a c r o n y m "   +   - 0 . 1 0 7 * " p h a rm "   +   - 0 . 0 9 2 * " r e fe rr"   T o p i c   9   0 . 3 1 9 * " d ru g "   +   - 0 . 2 3 9 * " a g e n t "   +   0 . 2 1 6 * " ra t e "   +   0 . 2 0 7 * "   c o n c e n t ra t e   "   +   0 . 1 9 6 * " u s e "   +   - 0 . 1 9 1 * " c o n t ra c t "   +   - 0 . 1 8 1 * " s e a r c h "   +   - 0 . 1 4 0 * " k n o w l e d g e "   +   0 . 1 2 9 * " r e a c t i o n "   +   0 . 1 2 6 * " d o s e "   D o c   i n d e x   D o m i n a n t _ t o p i c   T o p i c _ p r e c _ c o n t ri l   K e y w o r d s   0   8   0 . 9 7 6 2   o n e ,   b ra i n , f u n c t i o n , s p e c i ,   t h e o ri , t i m e , s t u d i , a r e a , a l s o , h u m a n   1   7   0 . 7 9 4 2   e n g   ,   c h e m , u s e , d i e   , l a c c a s , fo r c , d e r, o b j e c t ,   p r o c e s s , d a   2   3   0 . 6 1 0 7   c o n t ra c t ,   c e l l   ,   p a rt i   , c a n c e , c o m p o u n d   , t e r m   , w a t e , a n s w e r, q u e s t i o n , e x a m p l   3   4   0 . 9 9 9 9   n e rv ,   m u s c l   , a rt e ri   , f i g   , l i g a m e n t   , j o i n t   , p o s t e r i o r ,   s u p e ri o r ,   a n t e r i o r,   l a t e r   4   3   0 . 7 9 6 0   c o n t ra c t ,   c e l l   ,   p a rt i   , c a n c e r   , c o m p o u n d   , t e r m   , w a t e , a n s w e r, q u e s t i o n , e x a m p l   5   2   0 . 9 8 5 2   e q u a t ,   u s e , s o i u t   , t w o , r e a c t i o n , ra t e ,   c a i c u l , o n e , c o n c e n t e r, t i m e   6   7   0 . 9 9 5 4   e n g ,   c h e m , u s e , d i e   , l a c c a s , fo r c , d e r, o b j e c t ,   p r o c e s s , d a   7   7   0 . 8 7 1 3   e n g ,   c h e m , u s e , d i e   , l a c c a s , fo r c , d e r, o b j e c t ,   p r o c e s s , d a   8   2   0 . 9 9 9 9   e q u a t ,   u s e , s o i u t   , t w o , r e a c t i o n , ra t e ,   c a i c u l , o n e , c o n c e n t e r, t i m e   9   4   0 . 6 6 4 8   n e rv ,   m u s c l   , a rt e ri   , f i g   , l i g a m e n t   , j o i n t   , p o s t e r i o r ,   s u p e ri o r ,   a n t e r i o r,   l a t e r   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       L SA   &   L D A   t opi c   m ode l i ng   c l as s i f i c at i on:   c om par i s on  s t udy   on  E - boo k s   ( Shay m aa   H .   M oham m e d )   361   T a b l e   7 .   T o pi c   c o h e r e n c e   m e a s u r e s   s c o re   N u m b e r   o T o p i c   Co h e r e n c e   U CI   S c o re   (L D A )   Co h e r e n c e   U CI   S c o re   (L S A )   Co h e r e n c e   U m a s s   S c o r e   (L D A )   Co h e r e n c e   U m a s s   S c o r e   (L S A )   10   0 . 5 0 4 0 8 3 3 3 4 3 3 7 4 7 6 4   0 . 4 8 0 6 4 5 7 5 7 4 8 8 1 6 3 4 6   - 0 . 5 3 3 1 5 9 8 3 8 3 1 5 4 4 1   - 0 . 5 3 3 9 0 4 9 8 1 4 4 5 8 0 6 9   15   0 . 5 2 9 0 3 0 7 9 3 5 2 5 1 5 9 5   0 . 4 3 5 4 8 3 4 3 5 9 0 1 0 4 4 4 4   - 0 . 5 6 1 5 3 9 0 2 7 4 8 0 2 8 2 6   - 0 . 6 9 5 8 0 5 4 6 5 6 6 1 0 1 3 2   20   0 . 5 4 8 4 6 2 8 9 0 6 0 7 2 9 1 8   0 . 4 0 4 7 1 1 4 8 1 8 5 1 3 0 4 1   - 0 . 5 7 5 6 3 4 9 0 6 6 9 8 1 3 0 8   - 0 . 7 7 7 8 1 1 1 1 0 4 1 4 4 9 6 6   S o u r c e :   O u o w n   e v a l u a t i o n .           (a )         (b )       (c )     F i gu r e   3 .   T h e   c o h e r e n c e   U CI  s c a l e   v a l ue   (L D A ,   L S A )       6.   C O N C LU S I O N   In  t h i s   p a pe t h e   r e s e a r c h e r s   t r i e d   t o   us e   t w o   t o pi c   m o de l i n g   t e c hn i q ue s   (L D A   a n d   L S A )   f o r   c l a s s i fy i n t h e   c o l l e c t e da t a   a c c o r di n g   t o   i t s   do m i na nt   t o pi c s   a n m a k i n a   c o m pa ri s o n   b e t w e e n   t h e   r e s u l t s .   B a s e o n     t h e   r e s ul t s   t ha t   go t   o n e   c a c o n c l ude   t h e   f o l l ow i n gs :   (a )   Cl a s s i f i c a t i o pl a y s   a n   i m po rt a nt   r o l e   f o r   b o t h   us e r s   of  t h e   l i b ra r y   a n t h e   l i b r a ri a n s   b y   ob t a i ni n t h e   r e qui r e do c um e nt   a nd  c l a s s i fy   t h e   n e w   doc um e n t s   e a s i l y .   A m o n m a n y   t o pi c   m o de l i n g   t e c hni que s ,   L D A   &   L S A   t e c hn i q ue s   w a s   us e d   t o   c l a s s i fy   a   l a rge   n u m b e o f   un s t r uc t u r e t e xt   do c um e nt s .   T hi s   w o r k   i s   a   c o m pa r a t i v e   s t udy   be t w e e n   t w o   m e t h o ds   o f   t o pi c   m o de l i n g   t o   c l a s s i f y   e - bo o k s   a n t o   do   s o   f i r s t   ke y w o r ds   w e r e   i de nt i f i e b e c a us e   t h e y   pl a y   a   m a j o r   r o l e   i n   de t e r m i ni n t h e   t o pi c s   fo r   e a c s ub j e c t .   T h i s   w o r s t a r t e w i t h   a   num b e r   o f   pr e - p r o c e s s i n o pe r a t i o n s   a f t e t ha t   t ra i ni n t h e   m o de l   by   us i n g   (L S A ,   L D A a n d   f i n a l l y   e v a l ua t i o t h e   r e s ul t s   w a s   do n e   by   us i ng  Co h e r e n c e   v a l ue .   T h e s e   r e s ul t s   s h o w   t ha t     t h e   L D A   t e c hn i que   ga v e   b e t t e r e s ul t s   t ha t h e   L S A   t e c hni qu e   de pe n di ng  o n   t h e   s c a l e   Co h e r e n c e   U CI  w i t o ur  da t a s e t .   ( b )   F o b o t h   us e t e c hn i q ue s   t h e   p r e - p r o c e s s i n s t a ge   i s   e s s e n t i a l   s t a ge   b e c a us e   i t   p r o v i de s   goo d   di m e n s i o na l i t y   r e duc t i o n   a n d   r e m o v e   unn e c e s s a r y   w o r ds   f ro m   t h e   u n s t r uc t u r e t e xt u a l   da t a .   T h e   e l i m i na t e w o r ds   do e s   n o t   s i g n i f i c a n t   e ff e c t   a n t h e y   m a y   i n c r e a s e t h e   d i m e n s i o na l i t y .   (c Ch o o s i n g   t h e   n u m b e r   o f   t o pi c s   s t i l l   f i e l de pe n de n t   b e c a us e ,   f o r   e xa m pl e ,   t h e   t o pi c   h a s   go o c o h e r e n c e   s c o r e s   b ut   m a y   h a v e   r e pe a t e ke y w o r ds   i n   t h e   t o pi c .   ( d)  B a s e o n   t h e   r e s ul t s   L D A   h a s   b e t t e r e s ul t s   t ha n   L S A   i n   t h i s   w o r k.   (e T o pi c   Co h e r e n c e   m e a s u r e   c a b e   c o n s i de r e d   a   us e f ul   w a y   t o   c o m pa r e   di f f e r e n t   t o pi c   m o de l i n g   t e c hn i q ue s   a c c o r di n g   t o   t h e i   h u m a n - i nt e rp r e t a b i l i t y   t ha t   l e a ds   t o   p r o v i de   a   c l e a r   v i e w   a n d   h e n c e   t a ke   a   go o de c i s i o n s .   W ha t e v e r ,     t h e   e xpe ri m e nt   r e s ul t s   s h o w e t ha t   b o t t e c hni que s   (L D A   &   L S A ha v e   l i m i t a t i o n s   i n   t h e i pe r f o r m a n c e   a c c o r di n g   t o   t h e   us e d a t a s e t   a n d   f o r   f ut u r e ,   t h e r e   i s   a   n e e t o   i n c r e a s e   t h e   s i z e   o f   da t a s e t   f o r   b e t t e pe r f o r m a n c e .   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   19 ,   N o .   1 J ul y   202 :     353   -   36 2   362   R EF ER EN C ES     [ 1]   D .   ( P e w )   P u t t hi v i d hy a ,   H .   T .   A t t i a s ,   a nd   S .   N a g a r a j a n,   I nde pe nde nt   f a c t o r   t o pi c   m o de l s ,   I C M L   ' 09:   P r oc e e di ng s   of   t he   26t A nnua l   I n t e r na t i ona l   C onf e r e nc e   o M a c hi ne   L e ar n i ng ,   pp .   83 3 84 0,   J u ne   200 9.   [ 2]   D .   B l e i   a nd  J .   L a f f e r t y ,   C o r r e l a t e t o pi c   m o de l s ,   A dv anc e s   i N e ur al   I n f o r m at i o P r oc e s s i nf   Sy s t e m s ,   v o l .   18 ,   p .   147,   J a nu a r y   2005 .   [ 3]   P .   A nupr i y a   a nd   S .   K a r pa g a v a l l i ,   L D A   ba s e t o pi c   m o de l i ng   o f   j o ur na l   a b s t r a c t s ,   20 15  I n t e r na t i o nal   C o nf e r e nc e   on  A d v an c e C om p ut i ng   an C om m uni c a t i on  Sy s t e m s ,   C o i m ba t o r e ,   pp .   1 - 5,   201 5.   [ 4]   K .   H a g e do r n,   D .   N e w m a n,   a nd   Y .   N o h,   H o w   T o pi c   M o de l i ng   i s   U s e f ul   i n   D i g i t a l   L i b r a r i e s ,   2 010 .   [ O nl i ne ] .     A v a i bl e   :   ht t ps : / / w w w . l i b. um i c h. e du / f i l e s / g r a n t s / t o pi c / i m l s _ t o pi c _m o de l _pr e s e nt a t i o n. pp t . pdf .   [ 5]   S .   H e y m a n,   G o o g l e   bo o ks :   A   c o m pl e a nd  c o nt r o v e r s i a l   e xp e r i m e nt ,   T he   N e w   Y or k   T i m e s ,   2015 .   [ 6]   J .   J a c ks o n,   G o o g l e -   129  M i l l i o D i f f e r e nt   B o o ks   H a v e   B e e P u bl i s he d,   P C   W o r l d,   20 10 .   [ O nl i ne ] .   A v a i l a b l e :   ht t ps : / / a g upub s . o n l i n e l i b r a r y . w i l e y . c o m / do i / f ul l / 1 0. 1 002 / 201 3G L 058951 .   [ 7]   A .   K a ur   a nd   D .   C ho pr a ,   C o m pa r i s o o f   t e xt   m i ni ng   t o o l s ,   2016   5 t h   I n t .   C onf .   R e l i ab .   I n f oc om   T e c h nol .   O p t i m .   ( T r e nds   F u t u r .   D i r . ,   pp .   186 192 ,   201 6.   [ 8]   S .   D e e r w e s t e r ,   S .   T .   D um a i s ,   G .   W .   F ur n a s ,   T .   K .   L a nda u e r ,   a n R .   H a r s hm a n ,   I nde xi ng   by   l a t e n t   s e m a nt i c   a na l y s i s ,   J our nal   o f   t he   A m e r i c a S oc i e t y   f o r   I n f or m at i on   Sc i e nc e ,   v o l .   41 ,   n o .   6,   p p.   39 1 40 7,   S e pt e m be r   1 990 .   [ 9]   J .   W .   U y s ,   N .   D .   D P r e e z ,   a nd   E .   W .   U y s ,   L e v e r a g i ng   uns t r uc t ur e d   i n f o r m a t i o us i ng   t o pi c   m o de l l i ng ,   i P I C M E T   ' 08  -   2008   P or t l a nd   I n t e r na t i ona l   C on f e r e nc e   on   M anage m e nt   of   E ngi ne e r i n &   T e c hno l o gy ,   C a pe   T o w n,   pp .   955 - 961,   2 008 .     [ 10]   E .   S a r i o g l u,   K .   Y a da v ,   a n d   H . - A .   C ho i ,   T o pi c   m o de l i ng   ba s e d   c l a s s i f i c a t i o o f   c l i ni c a l   r e po r t s ,   i n   51 s t   A nnua l   M e e t i ng   o f   t he   A s s oc i a t i o f o r   C om pu t a t i o nal   L i n gui s t i c s   P r o c e e di ngs   o f   t he   St u de nt   R e s e ar c h   W or k s h op ,   pp.   67 73,   20 13.   [ 11]   S .   B e r g a m a s c hi   a n L .   P o ,   C o m pa r i ng   L D A   a nd   L S A   t o pi c   m o de l s   f o r   c o nt e nt - ba s e d   m o v i e   r e c o m m e nda t i o s y s t e m s ,   I nt e r na t i ona l   C on f e r e nc e   on   W e I nf o r m at i on   S y s t e m s   an T e c hn ol o gi e s v o l .   226 ,   pp .   247 263 ,   2014 .   [ 12]   Z .   T o ng   a nd  H .   Z ha ng ,   A   T e xt   M i n i ng   R e s e a r c B a s e d   o L D A   T o pi c   M o de l l i ng ,   T he   Si x t I nt e r na t i ona l   C onf e r e nc e   on   C om p ut e r   Sc i e nc e ,   E ng i ne e r i ng   an d   I nf or m a t i on   T e c hno l og y ,   pp .   201 210 ,   201 6.   [ 13]   Z .   L i ,   W .   S ha ng ,   a nd   M .   Y a n ,   N e w s   t e x t   c l a s s i f i c a t i o m o de l   ba s e d   o t o pi c   m o de l ,   20 16   I E E E / A C I S   1 5t I nt e r n at i on al   C on f e r e nc e   on   C om pu t e r   and   I n f o r m at i o S c i e nc e   ( I C I S) ,   pp .   1 5 ,   2016 .   [ 14]   T .   R a j a s un da r i ,   P .   S uba t h r a ,   a nd   P .   K um a r ,   P e r f o r m a nc e   a na l y s i s   o f   t o pi c   m o de l i ng   a l g o r i t hm s   f o r   ne w s   a r t i c l e s ,   i J ou r na l   of   A d v anc e d   R e s e ar c h   i D y nam i c a l   and   C on t r ol   Sy s t e m s ,   v o l .   2 017 ,   no .   1 1,   pp .   175 - 18 3,   J u l y   2017   [ 15]   M .   M o uho ub  a nd   M .   A l   H e l a l ,   T o pi c   M o de l l i ng   i B a ng l a   L a ng ua g e :   A L D A   A ppr o a c t o   O pt i m i z e   T o pi c s   a nd   N e w s   C l a s s i f i c a t i o n,   C om pu t e r   and   I n f o r m at i o S c i e nc e ,   v o l .   11,   no .   4 ,   pp.   7 7 83 ,   201 8.   [ 16]   K .   K u r a t a ,   Y .   M i y a t a ,   E .   I s hi t a ,   M .   Y a m a m o t o ,   F .   Y a ng ,   a nd   A .   I w a s e ,   A na l y z i ng   l i br a r y   a nd  i nf o r m a t i o s c i e nc e   f ul l t e xt   a r t i c l e s   us i ng   a   t o pi c   m o de l i ng   a pp r o a c h ,   P r oc .   A s s o c .   I n f .   Sc i .   T e c h nol . ,   v o l .   55 ,   no .   1 ,   pp.   847 848 ,   2 018 .   [ 17]   M .   A .   H e a r s t ,   T e xt   da t a   m i ni ng :   I s s ue s ,   t e c hn i qu e s ,   a n d   t h e   r e l a t i o ns hi p   t o   i nf o r m a t i o a c c e s s ,   i n   P r e s e nt at i on   not e s   f o r   U W / M w or k s hop   o d at m i n i ng ,   v o l .   1 ,   p .   997 ,   199 7.   [ 18]   K .   R .   B i nd u,   L .   P a r a m e s w a r a n,   a nd   K .   V   S o um y a ,   P e r f o r m a nc e   e v a l ua t i o n   o f   t o pi c   m o de l l i ng   a l g o r i t hm s   w i t h   a n   a ppl i c a t i o o f   Q   &   A   d a t a s e t ,   I n t .   J our nal   A p pl .   E ng i ne e r i ng   R e s . ,   v o l .   10,   p p.   23 27 ,   2015 .   [ 19]   Z .   Z a i no l ,   M .   T .   H .   J a y m e s ,   a nd   P .   N .   E .   N o huddi n,   V i s ua l U r T e x t :   A   T e xt   A na l y t i c s   T o o l   f o r   U n s t r uc t u r e d   T e x t ua l   D a t a ,   J o ur n al   o f   P hy s i c s   C onf e r e nc e   Se r i e s ,   v o l .   1 018 ,   no .   1 ,   p .   1 2 011,   M a y   2018 .   [ 20]   U .   M .   F a y y a d,   G .   P i a t e t s ky - S ha pi r o ,   P .   S m y t h,   a n R .   U t hu r us a m y ,   A d v a nc e s   i kno w l e dg e   di s c ov e r y   a nd  da t a   m i ni ng ,   A m e r i c a A s s o c i at i on   f or   A r t i f i c i al   I nt e l l i ge nc e 445  B ur ge s s   D r i v e   M e n l o   P ar k ,   C A U n i t e d   St at e s ,   1996 .   [ 21]   E .   S i m o udi s ,   R e a l i t y   c he c f o r   da t a   m i ni ng ,   i n   I E E E   E x pe r t ,   v o l .   11,   no .   5,   p p.   26 - 33 ,   O c t .   199 6.   [ 22]   S .   V .   G a i kw a d ,   A .   C ha ug ul e ,   a n P .   P a t i l ,   T e xt   m i n i ng   m e t ho ds   a nd   t e c hn i que s ,   I nt e r n at i ona l   J our na l   o f   C om pu t e r   A ppl i c a t i on ,   v o l .   85 ,   no .   1 7,   20 14 .   [ 23]   C .   C .   A gg a r w a l   a nd   C .   Z ha i ,   A   s u r v e y   o f   t e xt   c l a s s i f i c a t i o a l g o r i t h m s ,   i M i ni n t e x t   dat a ,   pp .   1 63 2 22 ,   J a nu a r y   2012 .   [ 24]   T .   G o a l v e s   a nd   P .   Q ua r e s m a ,   E v a l ua t i ng   p r e p r o c e s s i ng   t e c hn i qu e s   i n   a   t e x t   c l a s s i f i c a t i o p r o bl e m ,   L e opol d o,   R S,   B r a s .   SB C - So c i e dade   B r a s i l l e i r a   D e   C om pu t ac ao p p.   84 1 - 850 200 5.   [ 25]   C. - K .   Y a u,   A .   P o r t e r ,   N .   N e w m a n ,   a nd  A .   S uo m i n e n,   C l us t e r i ng   s c i e nt i f i c   do c um e nt s   w i t t o pi c   m o de l i ng ,   Sc i e nt om e t r i c s ,   v o l .   10 0,   no .   3 ,   p p.   76 7 78 6,   M a y   2014.   [ 26]   K .   H o r ni a nd  B .   G r ün ,   t o p i c m o de l s :   A R   pa c ka g e   f o r   f i t t i ng   t o p i c   m o de l s ,   J ou r na l   of   St at i s t i c a l   So f t w ar e ,   v o l .   40,   no .   13 ,   pp.   1 30 ,   2011 .   [ 27]   K .   K .   M i no   G e o r g e ,   P .   B e a u l a h   S o unda r a b a i ,   I m pa c t   O f   T o pi c   M o de l l i ng   M e t ho ds   A nd  T e x t   C l a s s i f i c a t i o T e c hni qu e s   I T e x t   M i n i ng :   A   S ur v e y ,   I n t e r na t i ona l   J ou r na l   of   A dv an c e s   i n   E l e c t r o ni c s   and   C om put e r   S c i e nc e v o l .   4,   no .   3,   p p.   72 77 ,   M a r c 2 017 .   [ 28]   T .   C v i t a ni c ,   B .   L e e ,   H .   I .   S o ng ,   K .   F u ,   a n d   D .   R o s e n ,   L da   v .   l s a :   A   c o m pa r i s o n   o f   t w o   c o m put a t i o na l   t e x t   a na l y s i s   t o o l s   f o r   t h e   f unc t i o na l   c a t e g o r i z a t i o o f   pa t e nt s ,   I nt .   C on f .   C a s e - B as e R e as o n .,   pp .   4 2 - 50,   20 16 .   [ 29]   J .   C .   C a m pb e l l ,   A .   H i ndl e ,   a n E .   S t r o u l i a ,   L a t e nt   D i r i c hl e t   a l l o c a t i o n:   e xt r a c t i ng   t o pi c s   f r o m   s o f t w a r e   e ng i ne e r i ng   da t a ,   T he   A r t   and   Sc i e nc e   o f   A nal y z i ng   So f t w ar e   D at a ,   pp .   139 15 9,   201 5.   [ 30]   K .   S t e v e ns ,   P .   K e g e l m e y e r ,   D .   A ndr z e j e w s k i ,   a n D .   B ut t l e r ,   E x pl o r i ng   t o p i c   c o he r e nc e   o v e r   m a ny   m o de l s   a nd   m a ny   t o pi c s ,   P r oc e e di ngs   o f   t he   20 12   J o i n t   C on f e r e nc e   on   E m p i r i c al   M e t hod s   i n   N a t u r al   L angu age   P r oc e s s i ng   and   C om put at i ona l   N at ur a l   L an guage   L e ar ni ng ,   p p.   95 2 96 1,   20 12.   Evaluation Warning : The document was created with Spire.PDF for Python.