I n t ern a t i o n a l  J o u rn a l  o f  E l ect ri ca l  a n d  C o m p u t er E n g i n eeri n g  ( I J E C E )   V o l.   8 ,  No .   5,  O c t obe r   20 1 8,  p p.  32 04~ 3 213   I S S N :  2088 - 8708 D O I :  10. 11 591/ i j ece . v8 i 5 . pp 320 4 - 3213          3204       Jou r n al  h om e p age h ttp : //ia e s c o r e . c o m/ j our nal s / i nde x . php/ I J E C E   O p t i mi s at i on   t o w a rds   L a t ent   Diric hlet  Al lo ca t io n :  I t s  T o pic  Nu m ber  a nd  Co ll a ps ed   G ibbs  Sa m pling  I nf ere nce  P ro ces s       B a m ba ng  Su be no 1 R e t no  K us u m a ni ng r u m 2 F a r i khi n 3   1 I nf or m a t i on S y s t e m U ni v e r s i t a s  D i pone g or o ,  I nd one s i a   2 D ep ar t m en t  o f   I n f o r m at i cs ,  U n i v e r s i t a s  D i pone g or o ,  I n do ne s i a   3 D ep ar t m en t  o f  M at h em at i cs ,  U n i v er s i t as  D i p o n eg o r o ,  I nd one s i a       A rt i cl e I n f o     AB S T RAC T   A r tic le  h is to r y :   R e c e i v e d N ov  20,  2017   R e v i s e d J a n  19,  20 18   A ccep t ed  A u g   23,  2018       L a t e nt  D i r i c hl e t  A l l oc a t i on ( L D A )  i s  a  pr oba bi l i t y   m ode l  f or  g r oupi ng  hi d de n   t opi c s  i n d oc um e nt s  b y  t he  num be r  of  pr e de f i ne d t opi c s .  I f   co n d u ct ed   in c o r r e c tly ,  d e te r m in in g  th e   a m ount   o f  K  to p ic s  w ill r e s u lt in  li m ite d   w o r d   c or r e l a t i on w i t h t op i c s .  T oo l a r ge  or  t oo s m a l l  nu m be r  of   K  t opi c s  c a us e s   i na c c ur a c i e s  i n g r oupi ng  t o pi c s  i n t he  f or m a t i on of  t r a i ni ng  m o de l s .  T hi s   s t udy  a i m s  t o de t e r m i ne  t he  opt i m a l  nu m be r  of   c or pus  t o pi c s  i n  t he   LD A   m e t hod us i ng  t he  m a x i m u m  l i ke l i ho od a n d M i ni m um  D e s c r i pt i on L e ng t ( M D L )  a ppr oa c h.   T h e e x p er i m e n t al  p r o ces s  u s es   I ndone s i a n  n e w s  a r tic le s   w i t h t he  num be r  of  doc um e nt s  a t  25,  5 0,  9 0,  a nd  60 0;  i n e a c h doc um e nt ,   t h num be r s  of  w or ds   ar e   389 8,  77 6 0,  13 00 5,   a n 43 65.  T he  r e s ul t s   s how  t ha t   t he  m a x i m u m  l i k e l i hood a n d M D L  a ppr oa c h r e s ul t  i n t he  s a m e   num be r  of   opt i m a l  t opi c s .  T he  o pt i m a l  num be r  of  t opi c s  i s  i nf l ue nc e d by  a l pha  a nd  be t a   p ar am et er s .   I n a ddi t i on ,  t he  nu m be r  o f  doc um e nt s  doe s  n o t  af f ect  t h c om put a t io n  tim e s   but  t he   num be r  of   w or ds  doe s .  C om put a t i ona l  t i m e s   f or   e a c h of  t hos e  da t a s e t s  a r e  2. 97 21 ,  6. 4 96 37 ,  1 3. 29 67,  a nd  3. 71 52 s e c onds .  T he   o p tim i s a t i on m ode l  ha s  r e s ul t e in   ma n y   LD A  to p ic s  a s  a  c la s s if ic a tio n   m o d el .  T h i s  ex p er i m en t  s h o w s  t h at  t h h i g h es t  av er ag e ac cu r ac y  i s  6 1 %  w i t h   a l pha  0 . 1 a nd  be t a  0. 00 1.   Ke y wo rd :   L a te n t D ir ic h le t a llo c a tio n   L i ke l i ho o d   M in i m u m  d e s c r ip tio n  le n g t h   N um be r  of  t opi c s   O p ti m i s a tio n   C opy r i g ht  ©   201 8   I ns t i t ut e  o f  A d v anc e d E ngi ne e r i ng  an Sc i e nc e   A l l  ri g h t s re se rv e d .   Co rre sp o n d i n g  Au t h o r :   R e t n o K u s um a ni ng r um   D ep ar t m en t  o f  I n f o r m at i c s ,   U ni ve r s i t a s  D i p o ne go r o ,   J l .  P r of .  S oe da r t o,  S H ,   T e m ba l a n g ,  S e m a r a n g ,  50275 I nd o ne s i a .   E m a il:  r et n o @ l i v e. u n d i p . ac. i d         1.   I NT RO D UCT I O N   N o wa d a y s ,   t e x t  m i ni n i s   w i d el y   i m p l e m e n t ed   d u t o   w i d e v ar i et y   o f   t ex t   t y p es ,  s u c h   as   n e w s   a r tic le s ,  s c ie n t if ic  a r tic le s ,  b o o k s ,  e m a il  m e s s a g e s ,  e tc F u r th e r m o r e ,  it  en co u r a g es  an  i n cr eas ed  n eed  t o   ex t r act  t h e i n f o r m a t i o n c o nt a i ne d  i n a  d o c u m e nt .   F u r t h er m o r e,  i t  en co u r a g es  a n  i n cr eas ed   n eed  t o  ex t r act  t h e   i nf or m a t i on c on t a i n e d i n  a  doc um e n t  t g e n e r a t e   us e f u l  kn o w l e d g e   [1 ],  [2 ],  [3 ],  [4 ] T h e d i f f er e n ce b et w ee n   n e ws  a r tic le s  o r  te x tu a l a r tic le s  d is s e m i n a te d  th r o u g h  e le c tr o n ic   m e d ia   w it h  o th e r  d o c u m e n ts  i s  th e   m o d e l o f   i n f o r m a t i o f l o w .  T he  ne w s   f l o w  i s  a  d yna m i c  a nd   c o nt i nuo us l y  up d a t e d   s tr e a m ; th e   m o r e  th e  n e w s  a r tic le  in   el ect r o n i m ed i i s ,   t h mo r e   e xt e n s i ve   t h d at co l l ect i o n  as   i t   al w a y s   i n cr eas es   [5 ] .   W i t e no r m o us   d a t a   va r i a t i o n s ,  p r o b l e m s  o c c ur   w he ne e d i ng t o  t a ke  o t he   d i f f e r e nt   ne w s   w h i l e   ha vi n g t he   s a m e  t he m e .  S o ,  t o   f a c ilita te   n a v ig a tio n ,  n e w s  a r ti c le s   m u s t b e  g r o u p e d  b y  t h e  s a m e  to p ic .     O ne   w a y  t o  ge t   t he   to p ic  in f o r m a tio n  c o n ta i n e d  in  t h e  c o r p u s  o f  a  n e w s  a r tic le  d o c u m e n t is  to  u s e   to p ic   m ode l l i ng .  L a te n t D ir ic h le A llo c a tio n  ( L D A )  is  a  to p i c   m o d e llin g   t e c hni q ue  t ha t  c a n gr o up   w o r d s  i n t o   s p e c if ic  to p ic s   f r o m  v a r io u s   m a te r ia ls   [6 ] .  T h e  n um be r  of  t opi c s  c on t a i n e d i n  t h e  c or pu s   w i t h   m u ltip le   v ar i at i o n s  i s   n eces s ar y  t o   o p tim i s e  t he   nu m b e r  o f   to p ic s  lis t e d   w i t hi n  t he  c o r p us .   T h er ar e   s e v e r a l e s t i m a tio n   a l go r i t h m s   us e d  i n L D A  i nc lu d i n g  E x p e c ta tio n - M a x i m iz a tio n   a lg o r it h m   [6 ] ,   E x p e c ta tio n - P r opa g a t i on  Evaluation Warning : The document was created with Spire.PDF for Python.
In t  J  E l e c  &  C o m p  E n g     I S S N :  2088 - 8708       O p tim is a tio n   to w a r d s  L a te n t D ir ic h le t A llo c a tio n :   I t s  T opi c  N um be r   and C ol l aps e d   ( B a m bang Sube no )   3205   a lg o r ith m  to  o b ta i n  b e tte r  a c c u r a c y   [7 ] a s   w e l l  a s   C ol l a ps e d G i bbs  S a m pl i ng   [8 ] E M  v a ri a t i o ns  r e q ui r e   hi gh   c o m p ut a t i o n a nd   l ear n i n g   m o d el s  t o  b b i as ed  an d  i n accu r at e.   Al s o , a ll o f  th e s e  a l g o r ith m s   a nd   t h e  num be r  of   t opi c s  s h oul d be  s e t  be f or e h a nd.   D e t e r m i ni ng t he   n um be r  of  K   t opi c s  i s  v e r y  i m por t a nt  i n   L D A .  I n c or r e c t l y   id e n ti f y in g   t h e   n um be r  of   K  to p ic s  c a n  r e s u lt i n  li m ite d   w o r d  c o r r e la tio n   w it h  t h e  t opi c   [9 ] .   T oo l a r g e  or  t oo s m a l l  num be r  o f   t h e  to p ic   w i l l  a f f ect  t h i n f er en ce  p r o ces s   a nd  c a us e  i na c c ur a c i e s  i gr o up i n g t o p i c s   i n  t he  t r a i ni ng   m o d e l   [ 10] .  T he  us e   o f  B a y es i an   no np a r a m e t r i c   m e t ho d s ,  s uc h a s  H i e r ar ch i a l  D i r i ch l et  P r o ces s  ( H D P )  i n  d et er m i n i n g  t h e n u m b er   of  t opi c s ,  e x pe r i e n c e d bot t l e ne c k s  du r i ng h i gh  c o m p u t a t i o [ 11] .   T h e u s e o f  s t o c h as t i v ar i at i o n al  i n f er en ce  a n d  p a r a lle l s a m p li n g  i s  n o t c o n s i s te n wi t h   th e  d e te r m in a t io n   of  t h e  num be r  of  t opi c s  i n  t he  L D A   m ode l   [ 12] .   I n  th is  s tu d y ,   w e  o p ti m i s e  t he  n um be r  of  t opi c  L D A   u s i ng   m a x i m um  l i k e l i h ood a n M i n i m u m   D es cr i p t i o n   L en g t h  ( M D L )  t o w ar d s  t h e u s ag e I n d o n es i a n  n e w s  ar t i cl e s .  B as i cal l y ,   L D A   C o l l ap s ed   G i bbs   S a m pl i n g   ( C G S )   r un s   ba s e on   t h e   n um be r   of   doc um e n t s   [ 13] ,   [ 1 4] ,   [ 15] ,   s o   th a th e   re p o rt s   d r am at i cal l y   a f f e c ts   th e  c o m p u ta tio n  ti m e .   I n  t h is  s t u d y ,   th e  n u m b e r  o f  d o c u m e n ts  d o e s   n o t a f f e c t  t h e   c o m p u ta tio n  ti m e ,   w hi l e  t h e  num be r  of   w or ds   gr e a t l y  a f f e c t s  t h e  c o m p u t i ng  t i m e .  T o obt a i n  t h e  opt i m a l   n um be r  of  t opi c  K   ba s e d on  l i k e l i h ood,  L D A   C G S   w ill r u n   f r o m  th e   s m a lle s t a m o u n t   of  K  t o t h e   m o s t s i g n if ic a n n um be r  of  K .   F o r  each  K ,   w w i l l  cal cu l at e  l o g - l i ke l i ho o d  va l ue  a nd   p e r p le x it y   w it h  s p e c i f ic   ite r a tio n .  T h e  ite r a tio n   w ill  s t o p  i t s el f  i f  p er p l ex i t y  v al u co n v er g e n ces .  T h e o p t i m al   n u m b er  o f   t he   to p ic   w ill a u to m a tic a ll y  b e  o b ta in e d   ba s e d on   t he   m a xi m um  l og - l i k e l i h ood v a l u e  of  t h e  K  r a ng e .  F or  M D L  a s  oppos e d  t o l i k e l i h ood,  L D A  C G S   w i l l  r un f r o m   m a xi m um   num be r  of  K  t m i n i m um   num be r  of  K .  T h e   s m a l l e s t  M D L   v a l u e  o f  t h e  K  r a ng e   r e pr e s e n t s  t h e  opt i m a l  num be r  of  t opi c s .       2.   R ES EA R C H  M ETH O D   T h i s  s e c t i on  di s c us s e s   t h e   i m pl e m e n t a t i on   o f   l i k e l i h ood  a nd  M D L   t f i n d t h e   opt i m a l   num be r  of   t opi c  L D A .  T h e  pr oc e s s  of  opt i m i s i ng  t h e   num be r  o f  t opi c  L D A  i s  a  o n e - t i m e  e xe c ut i o n.  T he   o p ti m i s a tio n   p r o ces s  s t ag e s  ar e d o cu m e n t ed   w it h  th e ir   i n put ,  pr e - p r o c e s s i ng,  B a g o f  W o r d  ( B o W ) ,  d e t e r m i ni ng t he   m a xi m um   num be r  of  t opi c  K ,   a n d opt i m i s i n g   n um be r  of  t opi c .   T h e  pr oc e s s  of  o pt i m i s i ng t h e  num be r  of  t opi c   L D A  ca n  b e s een  i n  F i g u r e 1 .           F i g ur e   1 .   P r o c e ss   of  opt i m i s a t i on  num be r  of  t opi c   L D A   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SSN :   20 88 - 8708     In t  J  E l e c  &  C o m p  E n g ,   V o l.   8 , N o 5 ,  O ct o b er   2 01 8   :   320 4   -   3213   3206   2 .1 .      M ax i m u m  N u m b e r  of  T op i c   B a g  of  W or d ( B oW )  pr e - pr oc e s s i n g r e s u l t s  s t i l l  c o m e  i n  r a ndom   da t a ,  w hi c c a be  m a de  i n t o g r ou d at a.  L i s t s  co n t ai n i n g  g r o u p ed  d at a b y  a s p eci f i c i n t er v al  cl as s  o r  b y  a p ar t i cu l ar   cat eg o r y  ar e cal l ed   f r e q u e n c y  d is tr ib u tio n   [1 6 ],  [1 7 ] .   T h e f o r m u l f o r  cal cu l at i n g  t h n u m b er  o f  g r o u p s  i s  as   f o l l o w s   [1 6 ],  [1 7 ] :     = 1 + 3 . 3 2 2    1 0 (     ) 1 +  2   ( )               (1 )     W he r e   N  i s  t h e  num be r  of  da t a .  F or  e x a m pl e ,  t h e  r e s u l t e w or ds  a r e   m ak an” ,  “ j e r uk ,  “ m angga” ,  “ be l i ,   “j e r u k ”,  “a p e l ”,  “t a r i f ”,  “s o p i r ”,  “a n g k u t ”,  “m a h a l ”,   “b b m ”,  “n a i k ”,  “b b m ”,  “s o l a r ”,   and “ m a hal B as ed  o n  e qu a t i on  1,  t h e  da t a  c a n  be  g r ou pe d i n t o 4 or  5 g r o u ps .     2 .2 .      L D A  C o l l a ps e d G i b bs   Sa m pl i ng   L a te n t D ir ic h le A llo c a tio n  i s   a  to p ic   m o d e llin g   t ec h n i q u e t h at  d es cr i b es  t h pr oba bi l i t y  pr oc e du r e  of   doc um e nt   [6 ] .  A ppl y i n g  t opi c   m o d e llin g   t o a  doc um e n t   w i l l  be  a bl e  t o pr o du c e  a  s e t  of  l o w - di m e ns i on a l   pol y n o m i a l  di s t r i b u t i ons  c a l l e d t opi c .  E a c h  t opi c   w i l l  be  us e d t o c o m bi n e   s o m e  i n f or m a t i on  f r o m  doc um e nt s   t h at   h av e t h e s a m w o r d  r el at i o n s h i p .  T h e r es u l t ed  t o p i c can  b e ex t r act ed  i n t o  a s e m an t i c s t r u ct u r w i t h   co m p r e h en s i v e r es u l t s ,  ev e n  i n  l ar g e d at a   [ 18] ,  [ 19]   L D A   m ode l  i s  a  pr oba bi l i t y   m ode l  t h a t  c a n  e x pl a i n  t h e  c or r e l a t i on  be t w e e w or ds   w i t h   h i dde t opi c s  i n   t h e  doc um e n t ,   f i n d t opi c s ,  a n d s um m a r i z e   t e x t  doc um e n t s   [ 20] .  T h m ai n  i d ea  o f  t o p i m ode l l i ng   as s u m e s  t h at  each  d o cu m e n t   can  b e r ep r es en t ed  as  a   di s t r i bu t i on  of   s e v e r a l  t opi c s   w he r e by   eac h  t o p i is   t he   pr oba bi l i t y  di s t r i bu t i on  of  t he   w or ds   [ 21] .   T h e d ev el o p m en t  o f   L D A   m e t h od u s e d t o da y  i s   L D A  a s  a   g en er at i v m o d el  a n d   L D A  as  i n f er e n ce  m o d el ,   wh i c h   can  b e s ee n  i n  F i g u r e 2   [ 22] .   P s e u do c ode  of  C G S   S t a n da r d,  P s e u do c ode  of  E f f i c i e nt   C G S - S h or t c u t ,  P s e udo c ode  of  C ol l a ps e d G i bbs  S a m pl i n g ( C G S )   o p tim is a tio n   [ 13]  a s  s h o w n  i n   F i gu r e  3, 4, 5.           F i g ur e   2 .  L D A r ep r es en t at i o n  m o d el       L D A   a g e n e r a t i v e   m ode l  i s  u s e d t g e n e r a t e  a  doc um e nt   ba s e d on  t h e  pr oba bi l i t y  v a l ue  of   w or to p ic  ( )   a n pr op or t i on   t opi c   of   doc um e n t   ( θ ) .  L D A  a s  a n  i nf e r e n c e   m ode l  us i ng  C ol l a ps e d G i bbs   S a m p l i n g  ( C G S )  i s  t h e r ev er s e o f  g en er at i v e p r o ces s  as  i t  a i m s  t o  d et er m i n e o r  f i n d  h i d d en  v al u v ar i ab l es ,   i. e . ,   pr o ba bi l i t y   w or d t opi c  ( )  a n pr opor t i on   t opi c   of  doc um e nt s   ( )   f r o m   t h p r ed ef i n ed   obs e r v a t i o d at [ 22 ] .   I n  C G S  p r o ces s es ,  ev er y   w o r d  i n  t h e d o cu m e n t  w i l l  b e d et er m i n ed  at  r an d o m  at  t h e b eg i n n i n g  o f   t h e t o p i c.  T h en ,  each   w o r d   w i l l  b e p r o ces s ed  t o  d et er m i n e a  n e w  t o p i c b as ed  o n  t h e p r o b ab i l i t y   v al u e o f  eac h   to p ic .   T o  c a lc u la te  th e  p r o b a b i lit y   v a lu e ,  t h e   f o llo w in g  f o r m u la  is   u s e d   [ 14] :     ( = | , ) =   , ( )   +   , ( . )   + (     ) , ( ) +             (2 )     Evaluation Warning : The document was created with Spire.PDF for Python.
In t  J  E l e c  &  C o m p  E n g     I S S N :  2088 - 8708       O p tim is a tio n   to w a r d s  L a te n t D ir ic h le t A llo c a tio n :   I t s  T opi c  N um be r   and C ol l aps e d   ( B a m bang Sube no )   3207   W he r e   V  i s  n um be r  of  v oc a bu l a r y ;   n k , i ( )   i s  t h e  n um be r  of   w or ds   w  on  t opi c  k ,  e x c e pt  t ok e n  i ;   , ( )   is  th e   n um be r  of   w or ds  i n  doc um e nt  d s pe c i f i e d a s  t o pi c  k ,  e x c e p t  t ok e n  i ;  a n , ( . )   is  th e  to ta l w o r d  o n  t o p ic  k ,   e x c e pt  t h e  t ok e n  i .  T o  de t e r m i n e  t h e  pr oba bi l i t y   w or ds  t opi c  a n d pr o por t i on   t opi c  of   t he   doc um e n t  a f t e r  g oi ng  t h r oug h  t h e  G i bbs  S a m pl i n g  p r oc e s s ,  t h e  f ol l o w i ng  f or m u l a   i s  us e [ 22] :     , =  =   ( ) +   (   ( ) +     ) = 1                 (3 )     , =  =   ( ) +   (   ( ) +     ) = 1                 (4 )             f o (  d= 1 t o D   )    do         fo r   i= 1   to   do                  ,                      fo r    (  j =  1  to      do   k =          1 , N     1                 fo r   (  k =  1  t o K   do     = (  +   )  x (  +   )   /   (    +  )             ~     ( 0 , )   k     ( : 1 < <   )       + 1 , N     + 1      = k     F i g ur e   3 P s e u do c ode   of  C G S  S t a n da r [ 13]         f o (  d= 1 t o D   )    do         fo r   i= 1   to   do                  ,     k =          1     1             fo r   (  k  =  1 t o K   do     = (  +   )  x (  +   )   /   (    +  )         ~     ( 0 , )   k     ( : 1 < <   )       + 1 , N     + 1      = k       F i g ur e   4 P s e u do c o d e   o f E ffi c i e n t  C G S - S ho r t c ut   [ 13]               fo r   i= 1   to   do                 ,      _                fo r   (  k  =  1 t o K   do   if   (  k =    )   t he n           1     1     = (  +   )  x (  +   )   /   (    +  )      _  _   ( ma x   (   ) )      = k   if   (  _   =  _ )   t he n       + 1     + 1       F i g ur e   5 P s e u do c ode   of  C ol l a ps e d G i bbs  S a m pl i ng  ( C G S )   o p tim is a tio n       2 .3 .   L ik e li h o o d   M ax i m u m   L i k el i h o o d  i s  t h e  es t i m a t ed  s t an d ar d  u s ed  t o  d et er m i n e t h e p o i n t  es t i m a t i o n  o f  an   u nkn o w n pa r a m e t e r  of   p r o b a b ilit y  d is tr ib u tio n   w it h   m a x i m u m  p r o b a b ilit y .   P s e u do c ode  of  l i k e l i h ood   s t an d ar d ,  a nd   ps e u do c ode  of  l i k e l i h ood opt i m i s a t i on   a s   s ho w i n  F i gur e   6   a nd   F i g ur e  7 .   T h e  e s ti m a tio n   obt a i n e d by  t h e  l i k e l i h ood  m a x i m um   m e t h od i s  c a l l e d l i k e l i h ood  m a x i m u m  e s t i m at [ 23] .  T h er e ar e s ev er al   l i k e l i h ood s a m pl e   m ode l s  d e v e l ope d f or  e s t i m a t i o n  on   t opi c   m o d e llin g   s uc h a s  I m p o r t a nc e  S a m p l i n g,   H ar m o n i c M ea n ,  Mea n  F i el d  A p p r o x i m at i o n ,   L e f t - to - R i g h t  S a m p l e r s ,   L e ft - to - R i g h t P a r tic ip a n t S a m p le r s ,   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SSN :   20 88 - 8708     In t  J  E l e c  &  C o m p  E n g ,   V o l.   8 , N o 5 ,  O ct o b er   2 01 8   :   320 4   -   3213   3208   L e ft - to - R i ght  S e q ue nt i a l  S a m p l e r s   [ 24] .  T he   l o g - l i k e l i h ood f u n c t i on on  t opi c   L D A   m o d e llin g   i s  a s   f o l l o w s   [ 14] :   ( | ) =   ( ) l og ( ,   . ,   = 1 ) = 1             (5 )           f o ( v = 1  t o  V   )   do         fo r   ( d = 1   to  D  )   do                    fo r    (  k  =  1 t o K   do   // c a lc u la te _ m a tr ix     , =   , + (   ,     , )                       =   ,     l og   ( , )     =   +         F i g ur e   6 P s e u do c ode   o L i k e l i h ood  s t an d ar d               n e w Bo   f o rea ch   B       {  i= 1  to     }    _                    fo r    (  k  =  1 t o K   do          // c a lc u l a te _ m a tr ix     , =   , + ( ,     , )                       =   ,     l og   ( , )     =   +         Fi g ur e   7 .   P s e u do c ode   o L i ke l i ho o d   o p tim i s a tio n       2 .4 .      M i ni m u m  D e s c r i pt i o L e ng t   M i n i m u m   D es cr i p t i o n   L en g t h  ( M D L )  i s  a  m et h o d  u s ed   t o  o p t i m i ze p ar a m et er  es t i m at i o n  o f  a   s ta tis t ic a l d is tr ib u tio n  a n d   m o d e l s e le c tio n  i n  a   m ode l l i ng   p r o ces s .  I n  t h i s  M D L  p r i n ci p l e,   t he   B a y e s i a n t he o r is  u s e d  to  d e te r m i n e  e s ti m a tio n  b y  c o n s id e r a tio n  o f  th e   l i k e l i h ood da t a  a n d e x i s t i n g   kn ow l e d g e  of  t h e  pr i or   pr oba bi l i t y   [ 25] .  I m p le m e n ta ti o n  o f  th e  M D L  p r i n c ip le  c o m e s  f r o m  t h e   n o r m a liz a tio n  o f   m a x i m u m  li k e li h o o d   t o   m eas u r e t h m o d el  co m p l e x i t y  o f  t h e d at a s et s   [ 26] .   T h e f o r m u l f o r  cal cu l at i n g   t h MD L  i s  as   f o l l o w s   [ 27] :     =   l og ( | ) +   1 2   l og (  )   ,             (6 )   = 1 1 0 0   1 + + ( + 1 ) 2 1     W he r e   l og ( | )   i lo g - lik e lih o o d   v a lu e ,  T  is  th e  n u m b e r  o f  to p ic s   us e d ,  a nd  N  i s   t he   n um be r  of   w or ds  i t h e  doc um e n t .     2 .5 .      P erp l ex i t y   P er p l ex i t y  i s  an o t h er   w a y  t o   cal cu l at e t h e l i k el i h o o d  u s ed  t o  m eas u r e t h e p er f o r m a n ce o f  t h e L D A   m o d e l.  T h e  s m a lle s t p e r p le x it y  v a lu e  i s  t h e  b e s L D A   m o d e [ 14] .  T he   f o r m ul a   f o r  cal cu l at i n g  t h e p er p l ex i t y   is  a s  f o llo w s :       = ex p   l o g (   | ) = 1 = 1               (7 )     Evaluation Warning : The document was created with Spire.PDF for Python.
In t  J  E l e c  &  C o m p  E n g     I S S N :  2088 - 8708       O p tim is a tio n   to w a r d s  L a te n t D ir ic h le t A llo c a tio n :   I t s  T opi c  N um be r   and C ol l aps e d   ( B a m bang Sube no )   3209   W he r e   D  i s   t h e  num be r  o f  doc um e n t s l og (   | )   is  lo g - l i k e l i h ood a c c or di n g  t o t h e  e qu a t i o n  ( 5) ,   a nd N  i s   t h e  num be r  of   w or ds  i n  t h e  do c um e n t .       3.   RE S U L T S  AND AN AL Y S I S   S ect i o n  I V  co n s i s t s  o f  t h r ee s u b s e c tio n s ,  i. e . ,   ex p er i m en t s  s et   up ,   t he   s ce n ar i o  o f  ex p er i m e n t s ,   e xp e r i m e nt s  r e s ul t ,  a nd  a na l ys i s .     3 .1 .  E x p eri m en t s   Se t   U p     I n t hi s  s t ud y ,   w e  u s e   I nd o ne s i a n ne w s  a r t i c l e s   f r o m  o nl i ne  p o r t a l  o f  d e t i k. c o m  a nd  R a d a r   S e m a r a ng.   T h e  n um be r s  o f  doc um e nt s   w e  u s e  a r e  25,  50,  90,  a n d 600  w i t h   t h e  num be r s  of  pr e - pr oc e s s i n w or ds  of  e a c doc um e nt  a r e  3898,  776 0,  13 0 05,  a n d 4365 .   I m p le m e n ta tio n   o f  e xp e r i m e nt s   us e  P H P  p r o gr a m m i n g l a n gua ge ,   M y S Q L  d at ab as e,  an d  h ar d w a r e s p eci f i cat i o n s  as   f o l l o w s :   a.   I n te l® C o r e  i3  1 . 8 G H z   b.   4 G B  of  m e m or y   c.   500 G B  of  h a r d di s k  dr i v e   T h e  a l g or i t hm s  i n  F i g u r e  4 a n d F i gu r e  6 of  t h e  doc u m e n t  l oopi n g  pr oc e s s  a r e  om i t t e d be c a u s e   doc um e nt  i n de x  i nf or m a t i o n   a ppe a r s   i n   B oW   r e s u l t s .   O p ti m is a tio n   pr oc e s s   ba s e d on   m a x i m um   l i k e l i h ood  an d  M D L  o n ce e x ec u t ed   w i l l  au t o m a t i cal l y  ear n   t h e o p t i m al   n u m b er   of   t opi c  K ,  a l ong   w i t h  t h e   v a l u e  of   pe r pl e x i t y ,  pr oba bi l i t y   w or d t opi c ,  pr o por t i on  t opi c  f or   doc u m e nt ,  a n d pr oba bi l i t y  t opi c  of   e a c h  c l a s s     3 .2 .  S cen a ri o   of  E xp e r i m e n t s     B as ed  o n  ex p er i m en t s   s et   u p,   w e  pe r f or m   f ou r  e x pe r i m e n t a l  s c e n a r i os  us i n g c o m bi n a t i on s  of  a l ph a   0. 1,   0. 0 01 a n d  be t a   0. 1,  0. 0 0 1.   S cen ar i o  1  ai m s  t o   co m p ar e t h e   ex ecu t i o n  t i m b et w ee n   s ta n d a r d  a lg o r ith m   a nd   CG S   o p ti m is a tio n ,   w h er w e  u s ed  s e v er al   d at as e t s   f or   a l ph a  0. 1 a n d be t a  0. 1.   T h e d at as et s  co n s i s t  o f   v a r i ou s  num be r  o f  doc um e n t s ,  i . e . ,   25,  90 ,   a nd   600.   S cen ar i o  2  ai m s   t o  k n o w  t h e p ar a m et er s  t h at  af f ect   t h e   t i me  o f   o p ti m i s a tio n   o f  t h n u m b er  o f  t o p i cs .  S ce n ar i o  3  ai m s  t o   k n o w  t h e p ar a m et er s  t h at  af f ect  t h e o p t i m a l   n um be r   of   t opi c s   b y   u s i ng   L i k e l i h ood  a n M D L .   S c e n a r i o   a i m s   t o kn o w   t h e   a ppl i c a t i on   of   t he   r e s u lte d   opt i m a l  num be r  of   t he   to p ic  w ith  L D A  C G S   a s   t h e   c la s s i f y in g  m o d e l.   L D A   C G S  i m p le m e n ta tio n  r e s u lt s   i n  t h e o p t i m al  n u m b er  o f  t o p i cs  as  a cl as s i f i cat i o n   m o d el .  W e u s e   100 a r t i c l e s  di v i de d i n t o 90% ,  or  90  doc um e n t  a r t i c l e s  a s  t r a i n i n g  da t a  a n d 10% ,  or  10 a r t i c l e  doc um e n t s  a s   te s ti n g  d a ta .  T h e  a r tic le  d o c u m e n t is  d i v id e d  in to   fi v e   cl as s es :  eac h  cl as s   f o r  t r ai n i n g  d a t a co n s i s t i n g  o f  1 8   n e w s  ar t i cl es .  I n  t h e t es t i n g  p r o ces s ,   w e u s e K u l l b ac k - L ei b l er  D i v er g en ce ( K L D )  t o  m ea s u r e t h e d i s t r ib u tio n   s i m i l a r i t y  be t w e e n  t h e  pr opo r t i on  of  doc um e n t  t e s t i n g  t o pi c s  a n d t h e  pr opor t i on  of  t opi c s  f or  e a c h  c l a s s   p r o d u ced  i n  t h e t r ai n i n g  p r o ces s .  T h e p r ed i ct i o n  o f  t h e d o cu m e n t   t es t i n g   cl as s   i s   t a k en  f r o m  t h s m al l es t   v a lu e  o f  K L D .  D e ta ile d  in f o r m a tio n  o f   K L D  c a n b e  f o und  i [ 22] .     3 .3 .   E x pe r i m e nt s  R e s ul t  a nd  A na l y s i s   T h e r es u l t s  o f  t h e ex p er i m en t a l  s cen ar i o  1  can  b e  s een  i n  F i g ur e   8,  a n d F i g ur e   9.   W h ile  t he  r e s ul t s  o f   t he   ex p er i m e n t al  s ce n ar i o  2  ca n  b e s een  i n  T ab l e 1 ,  F i g ur e   10,  a n d F i g ur e   1 1 .   T he  r e s ul t s  o f  t he  e xp e r i m e nt a l   s cen ar i o  3  ca n  b e s ee n   i n  T ab l e 2  an d   F i g ur e   1 2 .  F u r t h er m o r e,  t h e r es u l t  o f  e x p er i m e n t a l  s ce n ar i o  4  can  b e   s een  i n  T ab l e 3  an d  F i g ur e   13.           F i g ur e   8 .  C o m pa r i s on   C G S  S t a n da r d a n O p ti m is a t io n   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SSN :   20 88 - 8708     In t  J  E l e c  &  C o m p  E n g ,   V o l.   8 , N o 5 ,  O ct o b er   2 01 8   :   320 4   -   3213   3210       F i g ur e   9 .   C o m pa r i s on  of  E x e c u t i on  T i m e  S t a n da r d a n O p tim is a tio n   f o r  A l l  P r o ces s es       R e s ul t s  i T a bl e  1,  F i g u r e  10,  a n d F i gu r e  11   s h o w s  t h a t  t he  n um be r  of   w or ds   u s e w i l l   a f f e c t  t h e   co m p u t at i o n al  t i m e:  t h g r eat er   t he   n um be r  of   w or ds   is ,  th e  lo n g e r  th e  c o m p u ta tio n a l ti m e   w ill i n c r e a s e .  T h e   n u m b er   o f   d o cu m e n t s   an d   co m b i n at i o n s   o f  al p h a,   b et d o e s   n o t   af f ect   t h co m p u t at i o n a l   t i m e.   T h u s o f   a l go r i t h m s  s ho w n  i F i gur e  5   a nd   F i g ur e  7   g r e a t l y  c on c e r n s  t h e  opt i m i s a t i on of  t h e  e x e c ut i on  t i m e .  L oopi ng  doc um e nt  i s  r e m o v e d be c a us e  t h e  B a g  o f  W or d ( B oW )   pr e - p r o c e s s i ng r e s ul t s  s ho w  a  d o c u m e nt  i nd e x.   T h is  is   s ho w n b y t he  e xp e r i m e nt a l  r e s ul t s  o f   th e   f ir s s c e n a r io ,   w h ic h  is  ill u s tr a te d  in  F i g u r e  8  a n d  F ig u r e   9.       T a b le   1 T i me   O p ti m is a tio n   P r o c e ss  Re s u l t   No   D oc   W o r d s   A l p h a   B et a   C om pu t i n g   Ti m e   ( s e c on d )   L i k e l i h oo d   M DL   1   2 5   3 8 9 8   0 .1   0 .1   2 . 9 7 2 1 6   2 . 9 7 2 1 6   2   2 5   3 8 9 8   0 .1   0 . 0 0 1   2 . 9 6 7 1 7   2 . 9 6 7 1 7   3   2 5   3 8 9 8   0 . 0 0 1   0 .1   2 . 9 5 5 1 6   2 . 9 5 5 1 6   4   2 5   3 8 9 8   0 . 0 0 1   0 . 0 0 1   2 . 9 7 8 1 6   2 . 9 7 8 1 6   5   5 0   7 7 6 0   0 .1   0 .1   6 . 4 96 3 7 1   6 . 4 96 3 7 1   6   5 0   7 7 6 0   0 .1   0 . 0 0 1   6 . 4 67 3 7 0   6 . 4 67 3 7 0   7   5 0   7 7 6 0   0 . 0 0 1   0 .1   6 . 4 76 3 7 0   6 . 4 77 3 7 7   8   5 0   7 7 6 0   0 . 0 0 1   0 . 0 0 1   6 . 4 57 3 6 9   6 . 4 58 3 6 9   9   9 0   1 3 0 0 5   0 .1   0 .1   1 3 . 29 6 7 6   1 3 . 29 6 7 6   1 0   9 0   1 3 0 0 5   0 .1   0 . 0 0 1   1 3 . 31 6 7 6   1 3 . 31 6 7 6   1 1   9 0   1 3 0 0 5   0 . 0 0 1   0 .1   1 3 . 30 9 7 5   1 3 . 30 9 7 5   1 2   9 0   1 3 0 0 5   0 . 0 0 1   0 . 0 0 1   1 3 . 30 4 7 6   1 3 . 30 4 7 6   1 3   6 0 0   4 3 6 5   0 .1   0 .1   3 . 7 15 2 0 8   3 . 7 25 2 0 8   1 4   6 0 0   4 3 6 5   0 .1   0 . 0 0 1   3 . 7 15 2 1 2   3 . 7 15 2 1 2   1 5   6 0 0   4 3 6 5   0 . 0 0 1   0 .1   3 . 7 16 2 1 2   3 . 7 16 2 1 2   1 6   6 0 0   4 3 6 5   0 . 0 0 1   0 . 0 0 1   3 . 7 15 2 1 2   3 . 7 15 2 1 2           Fi g ur e   10 .   Co m p a r i s o n   of   L i ke l i h ood a n d M D L  c o m p u t a t i o n  t i m e  t w or d c ou n t   Evaluation Warning : The document was created with Spire.PDF for Python.
In t  J  E l e c  &  C o m p  E n g     I S S N :  2088 - 8708       O p tim is a tio n   to w a r d s  L a te n t D ir ic h le t A llo c a tio n :   I t s  T opi c  N um be r   and C ol l aps e d   ( B a m bang Sube no )   3211         Fi g ur e   11 .   T h e ef f ect  o f  a co m b i n at i o n  o f  al p h a - b et a v al u es  o n   o p ti m is a t io n   t i me       B a s e d  o n t he  e xp e r i m e nt a l  r e s ul t s  i T ab l e 2  an d  F i g u r e 1 0 ,  hy pe r - p ar a m et er  al p h a,  b et a can  af f ect   t h e  opt i m a l   num be r  of   t opi c s  on  l i k e l i h ood a n d M D L .   A l t hou gh  t h e   us e  of  a l ph a ,  be t a   v a l u es   m a y  af f ect  t h e   n um be r  of  t opi c s ,  t h e  L i k e l i h o od a n d M D L  pr oc e s s e s   w i l l  r e s u l t  i n  t h e  s a m e  opt i m a l   n um b e r  of  t opi c s .   T a b le   3  s h o w s  t h e r es u l t  o f   L D A  C G S  i m p l e m e n t at i o n  as  a c l as s i f i cat i o n   m o d el   u s i n g  1 0  f o l d .  T h e h i g h es t  accu r ac y   of  doc um e n t  c l a s s i f i c a t i on  i s  0. 80 o r  80%  w i t h  a l ph a  0. 1 a n d  be t a  0. 0 01.       T a b le   2 .  O pt i m a l  N um be r  of  T opi c s  B a s e d on  L i k e l i h ood a nd M D L   No   D oc   W o r d s   A l p h a   B et a   O p t im a N u m b e r  o f  T o p i c     L i k e l i h oo d   M DL   1   2 5   3 8 9 8   0 .1   0 .1   1 1   1 1   2   2 5   3 8 9 8   0 .1   0 . 0 0 1   1 2   1 2   3   2 5   3 8 9 8   0 . 0 0 1   0 .1   1 3   1 3   4   2 5   3 8 9 8   0 . 0 0 1   0 . 0 0 1   1 3   1 3   5   5 0   7 7 6 0   0 .1   0 .1   1 3   1 3   6   5 0   7 7 6 0   0 .1   0 . 0 0 1   1 4   1 4   7   5 0   7 7 6 0   0 . 0 0 1   0 .1   1 4   1 4   8   5 0   7 7 6 0   0 . 0 0 1   0 . 0 0 1   1 4   1 4   9   9 0   1 3 0 0 5   0 .1   0 .1   1 5   1 5   1 0   9 0   1 3 0 0 5   0 .1   0 . 0 0 1   1 5   1 5   1 1   9 0   1 3 0 0 5   0 . 0 0 1   0 .1   1 5   1 5   1 2   9 0   1 3 0 0 5   0 . 0 0 1   0 . 0 0 1   1 5   1 5   1 3   6 0 0   4 3 6 5   0 .1   0 .1   1 2   1 2   1 4   6 0 0   4 3 6 5   0 .1   0 . 0 0 1   1 2   1 2   1 5   6 0 0   4 3 6 5   0 . 0 0 1   0 .1   1 3   1 3   1 6   6 0 0   4 3 6 5   0 . 0 0 1   0 . 0 0 1   1 3   1 3           Fi g ur e   12 .   T h e  i n f l u e n c e  of  a l ph a ,  be t a  c om bi n a t i ons  on  t h e  opt i m a l  num be r  of   to p ic s     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SSN :   20 88 - 8708     In t  J  E l e c  &  C o m p  E n g ,   V o l.   8 , N o 5 ,  O ct o b er   2 01 8   :   320 4   -   3213   3212   T a b le   3 .   A v er ag e A cc u r ac y  C l as s i f ic a tio n  o f   E v e r y F o l d             F i g ur e   13 .   A v er a g e co m p ar i s o n  o f  accu r ac y  t o  al p h a - b et a v a l u e ch a n g es       B a s e d  o n t he  e xp e r i m e nt a l  r e s ul t  i T ab l e 3  an d   F i g u r e 1 1 ,  i t  i s  s ho w n   t ha t  t he  a ve r a ge   hi ghe s t   cl as s i f i cat i o n  accu r ac y  o f  each  f o l d  i s  6 1 %   w i t h   h y p er - p ar a m et er  al p h a 0 . 1  an d  b et a 0 . 0 0 1 .   T h e u s e   of  a l ph a   an d  b et a g r eat l y  a f f ec t s  t h e ac cu r ac y  o f  d o cu m en t  cl as s i f i ca t i o n .  T h m et h o d  o f  ap p r o p r i a t e h y p er - p ar a m et er   al p h a,  b et w i l l  p r o d u ce a h i g h  d eg r ee o f  accu r ac y  as  i n  f o l d  4   w i t h  0 . 8 0  o r  8 0 %  ef f i ci en c y .       4.   CO NCL U S I O N   T he  o p ti m is a tio n   num be r  of  t opi c   wi t h   L D A ,  u s i ng  L i k e l i hood a n d  M D L ,   y i e l ds  t h e  s a m e  opt i m a l   n um be r  of  t opi c .  T h e  n um be r   of  doc um e n t s  doe s   no t   ha ve  a   s i g ni f i c a nt  e f f e c t  o n  t he   o p ti m is a tio n   pr oc e s s ,  bu t   t h e  num be r  of   w or ds  doe s .  T h e  m or e  n um be r  t h e   w or ds  u s e d,  t h e  l on g e r  t h e  c o m p u ta tio n a l ti m e   wa s.   C o m b i n at i o n  o f  al p h a,  b et a v al u es   w i l l  co n d u ct  an  ef f ect   on t h e  opt i m a l   n um be r  of  t opi c   b ut  d o e s  no t  gi ve  a   s i g n i f i ca n t  ef f ect  o n  co m p u t at i o n al  t i m e.   M o r eo v er ,  o p tim i s i ng  t h e   n um be r  of  t opi c s   wi t h   L D A ,   w h av e g a t h er ed  t h at   C G S c a n  b e ap p l i ed  as   a cl as s i f i cat i o n   m o d el ,  b u t  t o   g et  g o o d  accu r ac y ,  o n e s h o u l d  d o  s ev er al  i t er at i o n s  a n d  u s e ap p r o p r i at e al p h a,   b et a v al u es .  T h e i n co r r ect   u s e o f  al p h a,  b et v al u e s   w i l l  af f ect  t h e o p t i m al   n u m b er  o f   t o p i cs ,  an d  t h e   cl as s i f i cat i o n  acc u r ac y  i s   no t   go o d .  I n t hi s  s t ud y ,   t he  h i g he s t   m e a n   va l ue  e a r ne d   f o r  1 0 - f ol d i s  0. 61 or  61%   w i t h  al p h a 0 . 1  an d  b et a 0 . 0 0 1 .  T h e b es t  cl as s i f i cat i o n  acc u r a c y  i s   s h o w n  i n  f ol d 4  w i t h  0. 8 0 or  8 0%  a c c u r a c y   va l ue .       ACK NO W L E D G E M E NT S     T he  a ut ho r s   w o ul d  l i ke  t o  a c k no w l e d ge  t he  r e s e a r c h f u nd i n g s up p o r t e d   b y  U ni ve r s i t a s  D i p o ne go r o   u n d er  t h g r an t  o f  r es ea r ch   f o r  i n t er n at i o n al  s ci e n t i f i c p u b l i cat i o n - Y e a r  2017 ( n um be r   276 - 36/ U N 7. 5. 1/ P G / 20 17) .   T hi s   r es ear ch  f u n d i n g  i s   g r an t ed  t o  t h e s eco n d  au t ho r .       Fo l d   A ccu r acy  o f  D o cu m e n t   C l as s i f i ca t i o n   A l p h a  0 . 1   B et a  0 .1   A l p h a  0 . 1   B et a  0 .0 0 1   A l p h a  0 . 0 0 1   B et a  0 .1   A l p h a  0 . 0 0 1   B et a  0 .0 0 1   1   6 0 %   7 0 %   4 0 %   5 0 %   2   6 0 %   5 0 %   5 0 %   4 0 %   3   5 0 %   5 0 %   6 0 %   5 0 %   4   5 0 %   8 0 %   5 0 %   5 0 %   5   4 0 %   6 0 %   4 0 %   5 0 %   6   5 0 %   7 0 %   4 0 %   5 0 %   7   5 0 %   7 0 %   5 0 %   7 0 %   8   5 0 %   5 0 %   3 0 %   6 0 %   9   5 0 %   6 0 %   4 0 %   5 0 %   1 0   5 0 %   5 0 %   5 0 %   5 0 %   A v e r a g e   5 1 %   6 1 %   4 5 %   5 2 %   Evaluation Warning : The document was created with Spire.PDF for Python.
In t  J  E l e c  &  C o m p  E n g     I S S N :  2088 - 8708       O p tim is a tio n   to w a r d s  L a te n t D ir ic h le t A llo c a tio n :   I t s  T opi c  N um be r   and C ol l aps e d   ( B a m bang Sube no )   3213   R EF ER EN C ES       [ 1]   S .  M or o,   P .  C or t e z  a n P .  R i t a ,   B us i ne s s  i nt e l l i g e nc e  i n  ba nk i n g :  A  l i t e r a t ur e  a na l y s i s  f r o m  200 2 t o 2 01 us i ng   T e x t M in in g  a n d  L a te n t D ir ic h le A llo c a tio n ,   Ex p e r t S y s te m s  w ith   Ap p lic a ti o n s ,   vo l .  42 ,   p p.  13 14   -   132 4,  20 15 .   [ 2]   N .  N aw   an d  E .  E .  H l ai n g ,  “R el ev an t  W o r d s  E x t r act i o n   M et h o d  f o r   R eco m m en d at i o n  S y s t e m , ”  Bu lle tin  o f  Ele c tr ic a l   E ngi ne e r i ng an I nf or m at i c s ,   v ol .  2,   no.  3,  p p.   16 9 - 1 76,  2 01 3.   [ 3]   N .  N a w ,  “ R e l e v a nt   W or ds  E x t r a c t i on M e t ho d i n T e x t  M i ni ng ,   Bu lle tin  o f Ele c tr ic a l E ngi ne e r i ng a nd  I nf or m at i c s ,   v ol .  2,  n o.   3,   pp.  1 77 - 18 1,  20 13.   [ 4]   R .  S .  A  an d  S .  R am as a m y ,  “ C o n t ex t  B as ed  C l as s i f i cat i o n  o f  R ev i e w s  U s i n g   A s s o ci at i o n  R u l M i n i n g ,  F u zzy   L og i c s  a nd O nt ol og y ,   Bu lle tin  o f  Ele c tr ic a l En g i n e e r in g   a n d  I n fo r m a tic s ,   vo l .  6 ,  n o.   3,   pp .  2 50 - 2 55 ,  20 17.   [ 5]   D .  B r ace w el l ,  Y .  J i aj u n  an d  R .  F u j i ,  “C at eg o r y  C l as s i f i cat i o n  an d  T o p i c D i s co v er y  o f  J ap an es e an d  E n g l i s h  N ew s   A r t i c l e s ,  2009.     [ 6]   D .  M .  B le i,  A .  Y .  N g  a n d  M .  I .   J o r d a n ,  “ L a te n t D ir ic h le t A llo c a tio n ,  J o u r n a o f  M ach i n e L ear n i n g  R es ear ch  3 ,   pp.  99 3 - 102 2,  20 03 .   [ 7]   T .  M i n k a an d  J .  L af f er t y ,  “E x p e ct at i o n - pr o pa g a t i on f or  t he  g e ne r a t i v e  a s pe c t   m ode l ,  I n U A I ,  p.  3 52 35 9,  20 02 .     [ 8]   T .  L .  G r i f f i t h s  an d   M .   S t ey v er s ,  “F i n d i n g  s ci en t i f i c t o p i cs , ”  P r o ceed i n g  o f  t h e N at i o n al  A cad e m y  o f   S ci en ces ,   v ol .  1 01,  p p.   52 28  -   5 23 5,  20 04.     [ 9]   A .   K u l es za,  N .  R .  R ao  an d  S .  S i n g h ,  “L o w - R an k  S p ect r al  L e ar n i n g , ” I n t er n at i o n al  C o n f er en ce o n  A r t i f i ci al   I n te llig e n c e  a n d  S ta tis tic s  ( A I S TA T S ) ,  v o l.  3 3 ,  2 0 1 4 .     [ 1 0]   J .  T a ng ,  Z .  M e ng ,  X .  N g u y e a nd Q .  M e i ,  “ U nde r s t a ndi ng  t he  L i m i t i ng  F a c t or s   of  T opi c  M ode l i n g  v i a  P os t e r i or   C ont r a c t i o n A na l y s i s ,  I nt e r na t i ona l  C o nf e r e nc e  on M a c hi ne  L e a r ni ng ,  v ol .  3 2,   20 14 .     [ 1 1]   D .  C he ng ,   X .  H e  a n d Y .  L i u,  “ M ode l   S e l e c t i on  f or  T opi c  M od e l s  v i a  S pe c t r a l  D e c om pos i t i on,  I nt e r na t i o na l   C o n f e r e n c e  o n  A r tif ic ia l I n te llig e nc e  a nd S t a t i s t i c s ,  v ol .   38 ,  2 01 5.     [ 1 2]   S .  W i l l i a m s on,  A .  D ube y  a nd E .  P .  X i ng ,  “ P a r a l l e l  M a r k ov  C ha i n M ont e  C a r l o f or   P a r a l l e l  M a r k o v  C ha i n M on t e   C a r l o,  J our na l   of  M a c hi ne  L e a r ni ng  R e s e a r c h,  v ol .  2 8,   pp.  9 8 - 1 06,  20 13.     [ 1 3]   T .  S .  X i ao  H an ,  “E f f i ci en t  C o l l ap s ed  G i bbs  S a m pl i ng  F or  L a t e nt  D i r i c hl e t  A l l oc a t i on,  A s i a C onf e r e nc e  on  M a c hi ne  L e a r ni ng  ( A C M L 2010) ,  20 10.     [ 1 4]   G .  H ei n r i ch ,   P ar am et er  es t i m at i o n  f o r  t ex t  an al y s i s ,  2 . 9  ed . ,  D ar m s t ad t ,  G er m an y :  F r au n h o f er  I G D ,  2 0 0 9 .     [ 1 5]   R .  K .  V  a nd K .  R a g huv e e r ,  “ L e ga l  D oc um e nt s  C l us t er i n g  an d  S u m m ar i zat i o n  u s i n g  H i er ar ch i cal  L at en t  D i r i ch l et   A llo c a tio n ,  I A ES  I n te r n a ti o n a l J o u r n a l o f  A r tif i c ia l I n te llig e n c e  ( I J - A I ) , v o l . 2 , n o 1 p p . 2 7 - 3 5,  20 13.     [ 1 6]   H .  S t u r g es ,  “T h e ch o i ce o f  a cl as s  i n t er v al , ” J o u r n al  o f  t h e A m er i ca n  S t at i s t i cal  A s s o c i a t i on,   p p.  65 - 66 ,  19 26 .     [ 1 7]   D .  W .  S c o tt,  “ S t u r g e s  R u le ,  W ir e s  C o m p u ta tio n a l S ta tis tic s ,  2 0 0 9 .     [ 1 8]   S .  A r or a ,  R .  G e  a nd A .  M oi t r a ,  “ L e a r ni ng  T opi c  M ode l s   -   G oi ng  be y ond S V D ,  I E E E  5 3r d  A nnua l  S y m pos i um  on  F ou nda t i ons   of  C om put e r  S c i e nc e ,  v ol .   2,   pp.  1 - 10,  2 01 2.     [ 1 9]   Z .  L i u,  H i g P e r f or m a nc e  L a t e nt  D i r i c hl e t  A l l oc a t i on f or  T e x t  M i n i ng ,  L ond on:  B r u ne l  U ni v e r s i t y ,  2013 .     [ 2 0]   D .  M .  B l e i ,  “ P r o ba bi l i s t i c  T o pi c   M ode l s ,  C om m uni c a t i on  of  T he  A C M ,  v ol .  55 ,  n o.   4,   pp.  7 7 - 84 ,  20 1 2.     [ 2 1]   Z .  Q i na ,  Y .  C ong  a n d T .  W a n,  “ T opi c  m ode l i ng  of  C hi ne s e  l a ng ua g e  be y ond a  ba g - of - w or ds ,  C om put e r  S pe e c h   a nd L a ng ua g e ,  v ol .  40 ,  p p.   60 - 78 ,  20 16.     [ 2 2]   R .  K us um a ni ng r um ,  W .   H ong ,  R .  M a nur u ng  a nd M .  A ni a t i ,  “ I nt e g r a t e d V i s ua l  V oc a bul a r y  i L D A  ba s e  s c e ne   c l a s i f i c a t i on f or  I K O N O S  i m a g e s ,  J our na l  of  A ppl e d R e m ot e   S e ns i ng ,   v ol .  8,  20 14.     [ 2 3]   I .  J .  M y ung ,  “ T ut or i a l  on m a xi m u m  l i ke l i hoo d e s t i m a t i on,  J our na l  of  M a t he m a t i c a l  P s y c hol og y ,   v ol .  47 ,   pp.  90 - 1 00,  20 02 .     [ 2 4]   W .  B unt i ne ,  “ E s t i m a t i ng  L i k e l i ho ods  f or  T opi c  M ode l s ,  T he  1s t  A s i a n C onf e r e nc e  on  M a c hi ne  L e a r ni ng ,   20 09.     [ 2 5]   J .  I .  M y ung ,  D .  J .  N a v a r r o a nd M .  A .  P i t t ,  “ M ode l  s e l e c t i on  b y  nor m a l i z e m a x i m u m  l i k e l i hood,  J our na l  of   M a t he m a t i c a l  P s y c hol og y ,  v ol .  50,  p p.   16 -   17 9,  20 05 .     [ 2 6]   D .  W .  H e c k ,  M .  M os ha g e n a nd  E .  E r df e l de r ,  “ M o de l  s e l e c t i on  by   m i ni m um  de s c r i pt i on  l e ng t h :  L ow e r - boun d   s a m pl e  s i z e s   f or  t he  F i s he r  i nf or m a t i on a ppr ox i m a t i on,  J our na l  of  M a t he m a t i c a l  P s y c hol ogy ,  v ol .  60,  p p.  2 9 - 34,   201 4.     [ 2 7]   W .  X i a or u ,  D .  J un pi ng ,  W .   S h uz he  a nd  L .  F u ,  “ A da pt i v e  R e g i on C l us t e r i ng  i n  L D A  F r a m e w or k   f or  I m a g e   S e gm e nt a t i on,  P r oc e e di ng s   of   2 013  C hi ne s e  I nt e l l i g e nt  A ut om a t i on C onf e r e nc e ,  pp.  5 91 - 60 2,  20 1 3.     Evaluation Warning : The document was created with Spire.PDF for Python.